Data har også en holdbarhedsdato

Gæsteklumme af Jacob Knobel, stifter af Datapult

I denne artikel peger jeg på en rød tråd, som er vævet ind i projekter med kunstig intelligens. Hvis du har vævet denne røde tråd ind i dit projekt, så ender du i en knibe, der både er åbenlys efterfølgende og svær at se på forhånd. I denne artikel vil jeg beskrive den røde tråd med en række eksempler fra den virkelige verden.

Det siges, at hvad ét fjols person har kastet i havet, kan to kloge mennesker ikke få op igen. Efter 10 års tjeneste for små og store selskabers digitale transformation har jeg lært, at dette ordsprog også passer på data-drevne projekter.

Jeg mindes et projekt for et industriselskab. Lad os sige, at de solgte specialfremstillede elpærer. En kohorte af højtspecialiserede sælgere var på vej på pension, og opgaven lød: ”Jacob, kan du hjælpe os med at automatisere det konfigurationsarbejde, vores sælgere har lavet? Vi har alt data.”

Det lød ligetil: Med kundens stamdata som input og konfigurationsdata som output kunne jeg bygge en kunstig intelligens-model til at forudsige konfigurationen givet kundens stamdata.

Jeg gik i gang. En fjerdel af data forsvandt, da vi fjernede udgåede produkter. Endnu en fjerdel røg, da det kom fra et forældet system med andet data. Halvdelen af data var tilbage.

Men hov. Der var ikke én identisk produktkonfiguration i datasættet, så jeg spurgte industriselskabet: ”Hvis jeg skal forudsige, at kunde nr. 6 skal have produktkonfiguration A, så skal jeg kunne se et mønster i de konfigurationer, lignende kunder har bestilt. Der er ikke noget mønster, hvis hver eneste kunde har fået en ny konfiguration.”

”Hov, ja, i 00’erne fik sælgerne en bonus for hver ny konfiguration, de opfandt. Sælgerne var snu og ændrede en lille smule på hver ordre. Én ordre blev konfigureret med en 1000 Watt pære, en anden med en 1001 Watt pære og en tredje med en 1002 Watt pære, og dermed fik sælgeren en bonus, selvom det reelt var samme produkt.”

Det lyder nok overkommeligt at løse sådan et datakvalitetsproblem, men i et større perspektiv påstår jeg, at historiske arbejdsprocesser sætter benspænd op for fremtidige kunstig intelligens-projekter. Jo ældre data, des større bliver benspændet, og jeg har set hele projekter snuble over denne slags benspænd.

Én til historie. En bank ville undersøge sandsynligheden for, at deres erhvervskunder ville gå konkurs. Med regler for, hvad en bank må bruge deres data, fandt banken ud af, at de ikke havde nok data til at forudsige konkurs, og brugte i stedet årsregnskaber. Tænk over det. En bank har ikke tilstrækkelig adgang til kunders data til at forudsige konkurs, men må bruge offentligt data, der offentliggøres årligt!

Et par eksempler til.

Søfartsindustrien består af en lang værdikæde. Mellemmændene kender hinanden på kryds og tværs og ringes ved for at aftale handler. Dusinvis af selskaber har prøvet at automatisere container brokering, men når hele industrien fungerer fint med telefonkald og håndtryk, er der intet behov for at flytte til et system, der kan prisfastsætte og planlægge ved hjælp af kunstig intelligens.

I danske supermarkeder brokker hovedkontorerne sig over, at der findes varer på butikkernes hylder, som de ikke kender til. Alligevel kan stregkodescanneren i kassen give en pris på varen. Omvendt kan hovedkontoret kende til en vare, som stregkodescanneren i kassen ikke kender. Hvad er der gået galt her?

Mens elpære-producenten ikke kan konfigurere produkter med data og kunstig intelligens, så kan Spotify konfigurere min spilleliste, så den passer mig dagen igennem.

Mens banken ikke kan bruge data og kunstig intelligens til at forudsige et selskabs konkurs, så kan algoritmer forudsige selv de mindste udsving i prisen på et børsnoteret selskabs aktie.

Mens søfartsindustrien ikke kan automatisere container brokering med data og kunstig intelligens, så kan Uber gøre det for private personer.

Mens danske supermarkeder ikke kan danne sig et synkroniseret overblik over deres varer, så kan Amazon lave fuldautomatiske og digitale supermarkeder.

Hvad er forskellen?

Tænk på elpære-producenten. Ja, de har data om konfigurationen om elpærer, men de tænkte ikke på at gemme struktureret data om, at denne data blev farvet af en bonus-ordning. Al data opsamles i en kontekst, og hvis man ikke medtager denne kontekst som en del af data, så kan din data ikke aktiveres i takt med, at konteksten ændres.

Når du skal løse et problem med kunstig intelligens, skal du således ikke blot spørge dig selv, om du har data. Du skal også spørge dig selv om, du har data omkring, hvordan din data er genereret. I min erfaring er det kun halvdelen af alle AI-projekter, der har denne slags data. Hvis du hørt kollegaer bruge ord som meta-data, database migreringer eller data lakes, så har du nok denne data. Hvis ikke det lyder bekendt, så minder din infrastruktur måske mere om elpære-producentens end Spotifys. Det indebærer, at dine AI-projekters levetid er afgjort af, at de udokumenterede menneskelige processer forbliver konstante, og det gør de sjældent.

Hold udkig efter ændringer i din organisation, der ændrer data, som en kunstig intelligens-model ikke selv kan gennemskue. Begynd at tracke disse ændringer som data, så din kunstige intelligens kan følge med. Det er det nemmeste greb til at forlænge levetiden af dine kunstig intelligens-projekter.

Når du skal løse et problem med kunstig intelligens, skal du således ikke blot spørge dig selv, om du har data. Du skal også spørge dig selv om, du har data omkring, hvordan din data er genereret