Gæsteklumme af Maria Jensen, medstifter af neurospace
Kan du nævne nogle af de V’er, som bruges til at definere Big Data?
Lad mig give dig et hint: V’erne er ord, som starter med V på engelsk.
Kan du nævne de 3 oprindelige? De 5 fra den næste revision, eller måske de 10 V’er som bruges i dag?
Hvornår kan vi sige, at vi har Big Data?
Mange af de virksomheder, jeg møder og samarbejder med, ved, hvad Big Data er, og de har også et strategisk mål om at opnå Big Data. Alligevel er det er sjældent, jeg får et rigtig godt svar på spørgsmålene, jeg stillede ovenfor, og det er kritisk.
For hvordan kan vi have et mål om at opnå en ting, hvis vi ikke ved, hvad det betyder? Eller endnu værre, at vi ikke forstår det samme, når der bliver sagt Big Data i mødelokalet. Hvornår ved vi så, at målet er opnået?
En ting, de fleste er enige om, er, at Big Data handler om at have store mængder data. Men jeg ser igen og igen, at store mængder data er linket til et meget bestemt V i Big Data: Volume.
Vi skal have terabytes eller petabytes, før vi har Big Data. Og vi skal have Big Data, før vi kan gå i gang med Machine learning-projekter, det, der også ofte kaldes Kunstig Intelligens eller AI.
Det er dog ikke rigtigt, at vi skal have store volumener, for at vi kan bruges vores data til noget, og det er en fejlforståelse, som i øjeblikket hæmmer den danske industri med deres dataimplementeringer og målet om at blive datadrevet. For når målet om Big Data er opnået, hvordan garanterer vi så, at vi har samlet lige præcis den information op, som vi står og skal bruge?
Derfor prøver jeg altid at flytte fokus væk fra volumen og Big Data.
Ved at skifte fokus kommer vi i de fleste tilfælde i stedet til at snakke om den værdi, som vi gerne vil skabe med dataimplementeringen - meget hurtigere end hvis vi følger den klassiske trappemodel for modenhed.
Lad os kigge på et eksempel: Et klassisk data scientist-problem er at diagnostisere, hvorvidt en tumor er godartet eller ondartet. Her har vi kun 569 observationer (eller 152.2 kB), men vi har tilstrækkeligt med data, til at vi tydeligt kan adskille mønsteret af en godartet og en ondartet tumor fra hinanden. Og det er lige præcis det, der definerer, hvornår vi har nok data til at kunne begynde at udnytte metoder som statistiske analyser og machine learning.
Et andet klassisk data scientist-problem er at detektere kreditkortsvindel.
Til det projekt har vi 284.315 observationer, og kun 492 af disse repræsentere kreditkortsvindel. Alligevel kan vi lave en god statistisk model, som forudsiger sandsynligheden for, hvorvidt en transaktion er svindel eller normal.
Det er altså ikke antallet af rækker i et excelark, eller terabytes og petabytes, som afgør, hvornår vi kan få værdi af det data, vi opsamler. Den afgørende faktor er en kombination af din datakvalitet, og hvorvidt du har et repræsentativt datasæt.
Værdien opstår ved at bruge data
Hverken Big Data eller data giver i sig selv værdi til din virksomhed, hvis det indsamlede data ikke bruges til noget.
Mange vil gerne få data til at være det nye olie eller guld, men virkeligheden er, at data er ligesom jord - ubrugeligt med mindre du kultiverer jorden, så du kan begynde at gro noget i den.
Mit postulat er, at du vil få endnu mere værdi ud af din data, hvis du bruger den proaktivt.
Min klare anbefaling er derfor at starte med at finde ud af, hvad du ønsker at bruge data til. Start med en drøm eller en hypotese om, hvad du gerne vil opnå, og hvilken værdi det skaber i jeres virksomhed.
På den måde ender du ikke med at stå med 5 års dataopsamling, som ikke kan bruges til noget, fordi du ikke har opsamlet det korrekt.
Lige en lille sidenote, så er netop 5 års dataopsamling uden nogen form for værdiskabelse den bedste måde at gøre organisationer dataresistente og aldrig deltage i nye dataaktiviteter.
Selvom det er tilfældet, er det en af de hyppigste fejl, jeg møder, og det kan blive dyrt at skulle starte forfra. I lean snakker man ofte om at reducere spild eller helt undgå det, og hvis noget er spild, er det lige netop 5 års dataopsamling uden værdiskabelse, særligt hvis du først efter 5 år finder ud af, at du har gjort det forkert.
Big Data er et buzzword, og det er noget, mange virksomheder stræber efter. Men Big Data er en rodet definition, som desværre ikke er særlig veldefineret, og ofte mere forvirrende end gavnlig.
Så måske skulle vi stoppe med at fokusere på Big Data - i stedet kunne vi måske begynde at snakke om Small Data, og hvordan du hurtigt kan komme i gang med at skabe værdi med det data, du allerede har i dag.
Mit råd til dig er at være ambitiøs, starte småt og få skabt værdi hurtigt med jeres dataimplementering.