3 skridt til at komme godt i gang med Data Science

Data Science, med løftet om at transformere vores beslutningsproces, er et af de hotteste emner i erhvervslivet i dag. Men hvad er det præcist? Hvordan kommer du i gang? Og betyder datamængden faktisk noget?

Hvordan formulerer du et ‘Aha’-spørgsmål?

Organisationer indsamler oplysninger om deres forretning i et hidtil uset omfang, og en stigende mængde data er offentligt tilgængelig. Det eneste du behøver for at tilgå data, er en computer og en internetforbindelse.

Men hvordan frigør du potentialet i dataene? Hvordan formulerer du det ene geniale spørgsmål, der får dig til at udbryde “Aha – det er sådan det hele hænger sammen!”. Det nemme svar: Det gør du ikke! I hvert fald ikke i første omgang.

At trække forretningskritiske indsigter ud af data er en løbende proces, der ser nogenlunde sådan ud:

1. Formulér spørgsmål, hvis svar vil give værdi for din forretning
2. Transformér, opsummér og visualisér datasættet for på den måde at besvare spørgsmålene
3. Vurder dine resultater mod de formulerede spørgsmål og det tilgængelige datasæt

Vigtigst er det, at disse trin er en del af en iterativ proces – se figur 1 nedenfor – hvor trin 3 leder dig til at integrere flere datakilder eller forfine dine spørgsmål ud fra den opnåede indsigt.

Ideelt set kulminerer denne proces til en indsigt, der påvirker den måde, virksomheden opererer på. I det følgende anvender vi denne metode på et casestudie.

Figur 1: De tre trin anvendt iterativt til udtrække indsigt fra data.

Data Science processen: Identificer og lap hullerne

Forestil dig, at du er en data scientist der arbejder med FreezeCorp – en virksomhed med speciale i køleudstyr. Gennem årene har de samlet temperaturdata relateret til deres frysere, og de er interesserede i at vide, om du kan se “noget” i dataene.

Som afbildet i figur 2 er et vigtigt aspekt for dig som data scientist at identificere og lappe hullerne mellem interessenter internt hos FreezeCorp.

Konkret har forretningsinteressenterne i FreezeCorp et omkostningsfokuseret syn på fryserne. De ønsker at reducere deres driftsomkostninger. At indsamle data bringer dem ikke tættere på at opnå dette.

Med deres mange års erfaring har domæneeksperterne stærke mavefornemmelser for, hvordan FreezeCorp-frysere virker i praksis. Ikke desto mindre udfordres de, når man forsøger at generalisere denne erfaring til viden, der skal forbedre det eksisterende produkt.

Endelig er IT-specialisterne primært bekymrede over, hvordan fryserne fungerer dagligt. De kan ikke at se, hvordan data-relaterede indsigter kan hjælpe dem med at forbedre dette.

Fælles for alle grupper er en færdighedskløft i at arbejde systematisk med dataene for at omdanne det til handling. Det er her, du som data scientist passer ind.

Figur 2: Mange forskellige interessenter har en jobbeskrivelse der inkludeerer det at trække værdi ud af data. Ofte er en data scientist den brik der mangler for at lykkedes med det.

Trin 1: Opsæt en hypotese

Din første opgave er at konkretisere det “noget”, som FreezeCorp leder efter. Du skal forstå FreezeCorps virksomhed for at hjælpe og skære ind til benet så de kan finde de svar, der rent faktisk giver værdi til virksomheden. Hvis ikke du ved hvad du leder efter, er chancerne for at finde noget minimale.

Derfor afholder du en workshop med FreezeCorp-interessenter – jfr. Figur 2. Resultatet af workshoppen er en hypotese – “temperaturmålinger udgør mønstre, der muliggør en gruppering af fryserne” – der er forankret i en business case: “Vi kan spare penge på vedligeholdelse, hvis vi kan forudsige fejlfunktioner, før de opstår”.

Trin 2: Data analyse

Trin 2 er at udtrække information fra datasættet, så vi kan bekræfte eller afvise hypotesen. Hver enkel data scientist har sit yndlingsværktøj til at opnå dette. Dette trin kræver ofte en kombination af hacking færdigheder (at kunne opdele data på måder, der filtrerer støj væk) og kreativitet (at kunne præsentere indsigt på informative måder).

I dette særlige tilfælde lærer du, at størstedelen af temperaturmålingerne kan tildeles en af tre klynger. Derfor skaber du informative visualiseringer, der skildrer dette.

Trin 3: Evaluering

I trin 3 diskuterer du resultaterne med domæneeksperterne. Med deres forståelse for, hvordan frysere fungerer i praksis kan de justere hver enkelt dataklynges identitet. Du informerer desuden interessenterne om, at vi har brug for andre typer data for at identificere de resterende målinger – ideelt set historisk data, som indeholder information om frysere med funktionsfejl. IT-eksperterne informerer os om tilgængeligheden af logfiler, der indeholder sådanne oplysninger.

På den måde overgår vi til den næste iteration, hvor vi vender tilbage til trin 1 for at præcisere hypotesen for at afspejle vigtigheden af at identificere fejlbehæftede frysere.

Afsluttende bemærkning: Størrelse betyder ikke noget

Casestudiet af FreezeCorp illustrerer vores tilgang til dataarbejdet. Vi håber særligt du bemærker fraværet af det opblæste begreb Big Data. Det er sjældent mængden der bidrager til at indfri dataens potentialer. Det handler i højere grad om at integrere og forene de mange forskellige datakilder, der allerede findes i de fleste virksomheder og organisationer i dag.

Data kommer i mange forskellige former (database, logfiler eller måske Twitter feeds), og mulighederne ligger i at tilpasse disse kilder på måder, der skaber værdi for din virksomhed.

Kontakt vores data scientist for at lære mere om, hvordan data kan skabe forretningsværdi: Kristian Sneskov: ksn@mjolner.dk