DTU Compute

Forskning sætter spørgsmålstegn ved værdien af big data

tirsdag 27 apr 21

Kontakt

Sune Lehmann Jørgensen
Professor
DTU Compute
45 25 39 04

Læs mere om forskningsresultatet

Artiklen ”Task-specific information outperforms surveillance-style big data in predictive analytics” er udgivet i tidsskriftet PNAS. Andreas Bjerre-Nielsen fra Københavns Universitet og SODAS er førsteforfatter, professor Sune Lehmann fra DTU og SODAS er seniorforfatter, Valentin Kassarnig fra Graz University of Technology i Østrig og professor David Dreyer Lassen fra Københavns Universitet er medforfattere på artiklen.

 

Læs mere i Sune Lehmanns blogindlæg

Læs mere i artiklen fra Københavns Universitet

Elektroniske overvågning breder sig verden over, hvor universiteter bruger adfærdsdata til at forudsige, hvordan de unge vil klare sig. Ny forskning fra KU og DTU viser dog, at kendte data som karaktergennemsnit er bedre.

Det bliver stadig mere almindeligt i udlandet, især i USA, at studerede skal installere en app på deres smartphone, så universiteter kan overvåge de unges adfærd. Fortællingen er, at data kan afsløre de unges trivsel, og at man hurtigere kan hjælpe dem, der er i fare for at forlade studiet.

Imidlertid viser en undersøgelse fra Københavns Universitet, DTU og Copenhagen Center for Social Data Science (SODAS), at allerede kendte data som karaktergennemsnittet i gymnasiet er bedre til at forudsige den såkaldt akademiske performance. 

”Vi kunne med simple og mindre følsomme former for statistiske data udvikle modeller, der var langt bedre til at forudsige de studerendes præstationer. Det var meget overraskende for os, for brugen af big data vokser stærkt,” siger Andreas Bjerre-Nielsen, adjunkt på Økonomisk Institut og SODAS ved Københavns Universitet.

Han suppleres af professor Sune Lehmann fra DTU Compute og SODAS:

”Når man skal forudsige, er det som data scientist fristende at tænke, at man bare hurtigst muligt skal i gang med at overvåge alle aspekter af folks liv. Og at jo flere data man indsamler, jo bedre bliver ens forudsigelser. Én af de ting, vi påpeger i artiklen, er, at de simple datakilder rent faktisk er markant bedre til at forudsige de studerendes præstationer end store dataset med information om sociale netværk, GPS-mønstre, personlighedstests, osv. Så man skal tænke sig grundigt om, før man begynder at overvåge de studerende, fordi det er en stor indgriben i menneskers privatliv.”

"Så man skal tænke sig grundigt om, før man begynder at overvåge de studerende, fordi det er en stor indgriben i menneskers privatliv."
Sune Lehmann, professor på DTU Compute og Copenhagen Center for Social Data Science (SODAS)

Netop en tid med udbredt digital hjemmeundervisning på grund af Corona-pandemien øger risikoen for, at unødig dataopsamling breder sig, mener forskerne.

Simple data versus big data

I undersøgelsen har forskerne benyttet data fra deres eget meget citerede dansk datasæt, Copenhagen Networks Study (CNS). Datasættet rummer adfærdsdata fra 1000 DTU-studerende, og de tidligere undersøgelser har netop påvist, at big data om de unges sociale netværk, fremmøde, sengetid osv., kan forudsige, hvor godt de vil klare sig på studiet.  

I den nye undersøgelse, udgivet i tidsskriftet PNAS, har forskerne kombineret datakilder fra Danmarks Statistik på en privatlivs-sikker måde med anonymiserede datakilder, og analyserne er udført på Danmarks Statistiks sikrede servere.

Forskerne har uploadet elementer fra DTU’s datasæt til Danmarks Statistik, så data blev låst og anonymiseret. Dernæst har forskerne parret data om karaktergennemsnit i gymnasiet med tilgængelige sociodemografiske oplysninger om forældrenes indkomst, forældrenes uddannelser, og familiens etniske oprindelse.

I studiet forudsiger big data med cirka 43 procents præcision, om en studerendes eksamensresultater vil ligge i topgruppen af de studerende, i midtergruppen eller i bunden. Det er kun lidt bedre end tilfældige gæt, som vil ramme rigtigt i 33 procent af tilfældene.

Omvendt rammer modellen rigtigt i 58 procent af tilfældene, når man bruger simple, tilgængelige data som karaktergennemsnit og oplysninger om social baggrund. Og når man kombinerer big data med registerdata, så ser gruppen ikke nogen prædiktiv forbedring over registerdata-sættet alene.

Figure: Task-specific information outperforms surveillance-style big data in predictive analytics

Grafikken viser, hvor præcist de forskellige datakilder og brug af avancerede algoritmer og machine-learning kan forudsige, hvor godt de studerendes klarer universitetet. X-aksen viser den afbalancerede nøjagtighed med den lodrette stiplede linje, der angiver basislinjen for tilfældig gætte. “Big data” er alle de detaljerede adfærdsdata, der er indsamlet fra CNS-undersøgelsen. “Administrative data” er registreringsdataene, der indeholder oplysninger om tidligere karakterer samt oplysninger om forældres indkomst, uddannelse og etniske oprindelse.

Opgave-specifik løsning
Sune Lehmann er reelt ikke så overrasket over, at simple data klarer sig en tand bedre end big data. Vi kan sammenligne det med at skulle løse en specifik opgave:  

”Hvis vi vil forudsige, hvor hurtig en atlet er til at løbe 100 meter, kan vi se på, hvor hurtigt løberen har løbet 100 meter de seneste gange. Vi kan også tage løberen med i et fitnesscenter og måle blodtryk og andre biometriske markører og se, hvor god løberen er til bænkpres, benpres osv. Disse data giver et godt billede af personens samlede sundhed og kondition, men mit gæt er, at den klassiske 100 metertid stadig er en bedre indikator for, hvor hurtigt den konkrete atlet kan løbe 100 meter."

”Tilsvarende siger de studerendes gennemsnit tilbage i gymnasiet ret meget om, hvor gode de er akademisk. Hvis vi skal forudsige andre ting, vil deres gennemsnit fra gymnasiet måske ikke være så godt. Men lige til denne specifikke forudsigelse vil gennemsnittet i gymnasiet være bedst. Så hvis valget står mellem, at totalovervåge de studerende døgnet rundt eller se på, hvordan de klarede gymnasiet, så bør retten til privatlivet tælle mest,” mener Sune Lehmann.