En av sommarens nyheter i Qlik Sense SaaS är möjligheten att skapa machine learning-modeller direkt i Qlik Sense. Machine learning används för att hitta komplicerade samband i data och förutse något.
Qlik AutoML gör det enkelt för användare utan djupare data science-kunskaper att skapa egna modeller med hjälp av grafiska verktyg. AutoML testar många olika machine learning-modeller för att hitta vilka som passar bäst för ändamålet.
I det här exemplet ska vi skapa en modell som kan förutse vilka passagerare på Titanic som överlever. För att göra detta har vi delat upp passagerarlistan från Titanic i två delar – en del som vi ska använda för att träna upp modellen och en del som vi ska använda för att testa den.
Till att börja med behöver vi ett dataset att arbeta med. Ladda ner de här två filerna och följ instruktionerna nedan för att ladda upp den i Qlik Sense:
Fil 1: titanic_train.csv Fil 2: titanic_test.csv
Börja med att öppna er miljö i Qlik Sense SaaS (kontakta oss om ni inte har någon miljö så hjälper vi er att sätta upp en). Klicka på ”Add new” uppe till höger och välj ”Dataset” i menyn.
Klicka på knappen ”Upload data file” uppe till höger. Dra och släpp filerna titanic_train.csv samt titanic_test.csv till ytan för uppladdning och klicka sedan på Upload. Nu laddas filerna upp till ditt personliga utrymme i Qlik Cloud.
När vi nu har filer kan vi börja skapa modellen. Klicka igen på ”Add new” och välj denna gång ”New ML experiment”.
Ange ett namn på modellen – t.ex. ”Titanic Survival Model” – klicka sedan på Create.
Välj sedan den fil som vi ska träna vår modell med – titanic_train.csv.
Vi visas nu de kolumner som finns i vårt dataset och vi kan välja vad som ska tas med i modellen.
Börja med att sätta Survived som målet för vår modell – det är denna kolumn som vi vill träna mot. I denna historiska fil har varje rad ett värde 0 eller 1 som avgör om passageraren överlevde eller ej. När vi senare använder modellen kommer vi ha data utan denna kolumn, men modellen kommer att sätta 0 eller 1 som förutsägelse.
Kryssa ur PassengerId – det är ett unikt ID för varje passagerare och har ingen koppling till vem som överlevt eller ej. Vi vill använda detta ID senare för att koppla förutsägelser till vårt data.
Name har tagits bort med automatik. Namnet är unikt för varje rad och behöver inte användas för modellen.
I inställningarna till höger kan man se olika detaljer. Bland annat kan vi visa vilka typer av modeller vi vill
Klicka sedan på Run experiment och vänta medan AutoML testar igenom flera olika modeller för att hitta den optimala lösningen. När körningen är klar visas vilken modell som fick bästa resultatet och detaljer kring modellens egenskaper. Vi återkommer i senare blogginlägg för att gå igenom detaljerna i dessa. I mitt fall blev Elastic Net Regression den bästa modellen.
Vi kan nu välja att driftsätta modellen – klicka helt enkelt på ”Deploy” och välj ett namn eller godta det föreslagna. Varje Qlik Cloud-miljö kan ha två driftsatta modeller. Om det redan finns två modeller kommer du få ett felmeddelande. Du har möjligheten att ta bort någon driftsatt modell eller köpa flera modeller till er licens.
I kommande inlägg ska vi gå igenom hur man på olika sätt kan använda modellen för att göra förutsägelser på ny data.