Tilbage

Kan kunstig intelligens give fair forudsigelser?

mandag 30 nov 20

Kontakt

Aasa Feragen-Hauberg

Professor

DTU Compute

26 22 04 98
afhar@dtu.dk

Kilder

Sune Holm lektor ved Institut for Medier, Erkendelse og Formidling, Københavns Universitet
Melanie Ganz Adjunkt ved Datalogisk Institut, Københavns Universitet
Aasa Feragen Professor ved Institut for Matematik og Computer Science, DTU

'Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments', Big Data (2017), DOI: 10.1089/big.2016.0047

'Fairness Definitions Explained', Institute of Electrical and Electronics Engineers (2018), DOI: 10.23919/FAIRWARE.2018.8452913

Artiklen

Artiklen er oprindelig bragt på Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler.

Link til Forskerzonen

Det virker smart at bruge algoritmer til at kigge igennem stakke af jobansøgninger. Men det er bestemt ikke uden etiske og matematiske problemer.

Af lektor Sune Holm (KU), Melanie Ganz (KU) og Aasa Feragen (DTU)
Artiklen er oprindelig bragt på Videnskab.dk’s Forskerzonen, 29.11.2020

I efteråret 2018 stoppede Amazon sit forsøg på at anvende en algoritme til at sortere i jobansøgere, fordi algoritmen konsekvent foretrak mænd frem for kvinder.

I 2016 blev den såkaldte COMPAS-algoritme, der i USA anvendes til at vurdere, om en anklaget skal forblive fængslet eller ej inden sin rettergang, beskyldt for at være racistisk, fordi dens fejl ramte sorte hårdere end hvide.

Og i 2015 klagede en sort programmør over, at Google's Photos app kategoriserede ham og hans sorte kæreste som gorillaer.

Eksempler som disse har givet anledning til en intens debat om, hvordan man kan sikre sig, at såkaldte forudsigelsesalgoritmer er fair.

Og det er der god grund til. Der er store forhåbninger til, at man kan høste økonomiske gevinster og forbedre beslutningsprocesser ved at anvende kunstig intelligens.

En forudsætning for, at det kan lade sig gøre, er nemlig, at vi kan have tiltro til, at de pågældende systemer er fair.

Det er netop fairness i algoritmer, vi undersøger på Københavns Universitet og DTU i projektet 'Bias and Fairness in Medicine', der er støttet af Danmarks Frie Forskningsfond.

Forudsigelsesalgoritmer findes overalt i din hverdag

De fleste mennesker bliver dagligt påvirket af forudsigelsesalgoritmer.

Vores spamfiltre er eksempelvis en algoritme, der er trænet i at forudsige, hvilke mails vi gerne vil modtage, og hvilke mails der er spam.

Disse algoritmer omtales ofte som kunstig intelligens. Ikke fordi de har bevidsthed, men fordi de kan lære ved at blive vist eksempler.

Et spamfilter kan trænes til meget nøjagtigt at sortere mail ved at blive vist en masse eksempler på mails, der er mærket 'spam', og mails, der er mærket 'ikke-spam'. Ved at gennemgå alle disse mails kan algoritmen selv identificere, hvilke egenskaber ved mails der statistisk set er stærkt associeret med spam.

Samme slags teknologi anvendes i søgemaskiner, på datingsider, i målrettet annoncering, i nyhedsfeeds, til kreditvurdering og i forsikringsbranchen.

Og det stopper ikke her.

Forudsigelsesalgoritmer vinder også indpas som rekrutteringsværktøjer på jobmarkedet.

Indenfor sundhedsvæsenet har man store forventninger til, at kunstig intelligens vil kunne komme med diagnoser og behandlingsforslag.

Og i uddannelsessystemet kan algoritmerne anvendes til eksempelvis at forudsige, hvilke studerende der har høj sandsynlighed for at droppe ud.

Algoritmisk fairness er svært at udvikle

Når der i disse år er stigende fokus på, hvordan man kan sikre, at algoritmer er fair, skyldes det særligt race-diskussionen om COMPAS-algoritmen, som vi nævnte foroven.

Den ophedede debat satte gang i en mere dybtgående undersøgelse af, hvorvidt det overhovedet er muligt at udvikle en forudsigelsesalgoritme, der kan siges at være fair ifølge bredt accepterede kriterier.

Flere grupper af forskere undersøgte sagen, og de kom alle frem til, at det ikke blot er ganske svært, men under normale omstændigheder matematisk umuligt at udvikle algoritmer, der lever op til flere plausible kriterier for algoritmisk fairness.

Lad os illustrere problemet med et eksempel.

En algoritme til jobansøgninger

Lad os sige, at vi vil bruge en algoritme til at vurdere, om en ansøger til et givent job er kvalificeret eller ej.

I stedet for at skrive et program, der fortæller den, hvordan den skal skelne de kvalificerede fra de ikke-kvalificerede ansøgninger, lærer vi den det ved at vise den en masse eksempler på tidligere ansøgninger til jobtypen samt information om, hvorvidt en given ansøgning blev bedømt kvalificeret eller ej.

Bagefter tester vi algoritmen på et for den ukendt sæt af ansøgninger, for at se hvor godt den klarer sig.

Antag, at algoritmen viser sig at være ganske nøjagtig:

Ud af 1.000 ansøgninger, den ikke har set før, er dens klassifikation korrekt i 85 procent af tilfældene.

Én oplagt test for, om algoritmen er fair, vil være at se på, om der er samme sandsynlighed for, at kvinder og mænd faktisk er kvalificerede, når de klassificeres som kvalificerede, og om der er samme sandsynlighed for, at de faktisk ikke er kvalificerede, når de klassificeres som ikke-kvalificerede.

Hvordan algoritmen klarer sig med hensyn til dette er især vigtigt for den arbejdsgiver, der skal anvende algoritmen.

Hvis en arbejdsgiver skal ansætte en softwareingeniør og vil anvende en algoritme til at screene ansøgninger, vil viden om ansøgernes køn være irrelevant, hvis køn ikke gør en forskel for, hvor sandsynligt det er, at algoritmens klassifikation af dem er korrekt.

Hvis ansøgernes køn gør en forskel for, hvor sandsynligt det er, at algoritmens klassifikation er korrekt, vil det til gengæld være yderst relevant for arbejdsgiveren at lade en ansøgers køn påvirke en beslutning om at ansætte dem, hvilket kan være både ulovligt og etisk problematisk.

Kan man ikke bare sørge for, at algoritmen ikke har adgang til informationer om irrelevante egenskaber såsom køn eller race?

Jo, men det løser ikke problemet. Ens valg af relevante egenskaber vil meget ofte introducere skævheder i forhold til eksempelvis køn, uden at man tænker over det.

Falske positiver og falske negativer

Som nævnt har algoritmen i vores tænkte eksempel ret i 85 procent af tilfældene. I 15 procent af tilfældene er dens forudsigelse fejlagtig.

Lad os nu antage, at når algoritmen tager fejl om, hvorvidt en ansøger er kvalificeret til jobbet, fordeler fejlene sig på følgende måde for de to køn:

Alle de ansøgere, der fejlagtigt bliver bedømt ukvalificerede, er kvinder.
Alle de ansøgere, der fejlagtigt bliver bedømt kvalificerede, er mænd.

Hvis vi ser på de to fejltyper fra ansøgernes perspektiv, er det en væsentlig større byrde at blive erklæret ukvalificeret til et job, når man er kvalificeret, end kvalificeret til et job, når man ikke er det.

I det første tilfælde mister man muligheden for at få et job, man er egnet til.
I det andet tilfælde får man muligheden for at få et job, man ikke er egnet til.

De fleste ville nok foretrække den sidste konsekvens af en fejlagtig forudsigelse frem for den første.

Med andre ord, i dette eksempel er falske positive at foretrække frem for falske negative, og de to typer fejlforudsigelser er ulige fordelt mellem mænd og kvinder.

Er algoritmisk fairness en matematisk umulighed?

Et fremtrædende synspunkt i debatten om algoritmisk fairness er, at en sådan ulighed i fordelingen af disse to fejltyper mellem mænd og kvinder (og andre såkaldt 'sensitive grupper') er unfair.

Og man skulle tro, at svaret på, hvad der skal gøres, ligger lige for:

Sørg for, at algoritmen er skruet sådan sammen, at disse to fejltyper rammer mænd og kvinder ligeligt.

Det er imidlertid ikke så nemt, som det måske lyder. Her har COMPAS-sagen vist sig at være lærerig.

I kølvandet på debatten fandt flere forskere frem til, at det under almindelige omstændigheder er matematisk umuligt at konstruere en algoritme, der både kan sikre, at sandsynligheden for, at forudsigelserne er korrekte, er lige stor for kvinder og mænd, og samtidig sikre, at den ene gruppe ikke bliver ramt hårdere af fejl end den anden, ved at sørge for at andelen af falske positiver og falske negativer er den samme for begge grupper.

Hvorfor forholder det sig sådan?

Ulige sandsynlighed for 'den dårlige fejl'

I den virkelige verden vil det ofte være tilfældet, at andelen af individer, der er kvalificeret til et job, er forskellig mellem to grupper.

Det kan for eksempel være, at der er en større andel af mænd end kvinder, som er kvalificerede til et job som softwareingeniør, og en større andel af kvinder end mænd, der er kvalificerede til et job som fodterapeut.

Figur 1: De sorte figurer viser, hvor mange mænd og kvinder, der faktisk er kvalificerede til jobbet. De hvide figurer i grupperne udgør de individer, der faktisk ikke er kvalificerede til jobbet. (Illustration: Forfatterne, bygger på Mayson et al.)

Det fremgår, at 8/10 kvindelige ansøgere er kvalificerede til jobbet, og at 9/10 mandlige ansøgere er det. Med andre ord er den såkaldte base rate for disse to grupper med hensyn til kvalifikation forskellig.

Den lodrette linje viser algoritmens tærskel for, hvornår den klassificerer en ansøger som kvalificeret. Til højre for linjen er gruppen af individer, der klassificeres som kvalificerede (de 'positive'), og til venstre er de, der klassificeres som ikke-kvalificerede (de 'negative').

Hvis vi kigger på figur 1, kan vi se, at algoritmen i én forstand stiller disse to grupper ens. Ser vi på venstre side af linjen fremgår det, at hvis man klassificeres som ikke-kvalificeret, er der 50 procent chance for, at klassifikationen er korrekt, uanset hvilken gruppe man tilhører.

Men i en anden forstand stiller algoritmen de to grupper forskelligt: For de faktisk kvalificerede kvinder gælder det, at 2 ud af 8 klassificeres som ikke-kvalificerede. For kvalificerede mænd gælder det, at 1 ud af 9 bliver klassificeret som ikke-kvalificeret.

Kvalificerede kvinder har således 25 procent sandsynlighed for den 'dårlige' fejl, mens kvalificerede mænd 'kun' har 11 procent sandsynlighed for det.

Vi kan rette fejlen, men det kommer med en omkostning

Hvis vi gerne vil have, at sandsynligheden for at kvalificerede ansøgere bliver fejlbedømt som ikke-kvalificeret er den samme for disse to grupper, kan vi ændre på algoritmen, således at den nu laver flere falske negativer for mænd (se figur 2).

Ved at 'skubbe' nogle flere kvalificerede mænd over i gruppen af ansøgere, der klassificeres som ukvalificerede, kan vi sikre, at der er en lige stor andel af de kvalificerede i disse to grupper, der fejlagtigt bliver klassificeret som ikke-kvalificerede.

Denne manøvre har imidlertid en omkostning:

For mænd er der nu 31 procent sandsynlighed for, at en klassifikation som ikke-kvalificeret er korrekt (1 for hver 3¼ ).
For kvinder er der 50 procent sandsynlighed for, at en sådan klassifikation er korrekt.

Køn gør nu en forskel for sandsynligheden for, at en klassifikation som ikke-kvalificeret er korrekt.

Det var det, arbejdsgiveren gerne skulle undgå, hvis køn ikke skal spille ind i overvejelser over, hvem der skal ansættes.

Figur 2: Grunden til, at linjen deler en mand i ¼ og ¾, er, at det giver en falsk negativ rate på 2¼ ud af 9 (25 procent) for mænd. (Illustration: Forfatterne, bygger på Mayson et al.)

Vi kan udligne igen. Men…

Kan vi så udligne balancen for de to grupper ved at ændre på figur 2?

Ja. Det kan lade sig gøre ved at gøre algoritmen dårligere til at klassificere ikke-kvalificerede kvinder korrekt. Det vil give os en situation som i figur 3.

Figur 3: Vi forsøger at rode bod på de tidligere uligheder, men nu er det pludselig nemmere for en ukvalificeret kvinde at blive klassificeret som kvalificeret. (Illustration: Forfatterne, bygger på Mayson et al.)

Nu har vi sikret, at der er lighed mellem grupperne i forhold til, hvor stor sandsynlighed, der er for, at dens negative klassifikationer er korrekte, og i forhold til hvor stor en andel af de kvalificerede, der bliver klassificeret som ikke-kvalificerede.

Vi har til gengæld introduceret en ny ulighed:

Der er en større sandsynlighed for, at en ikke-kvalificeret kvinde bliver klassificeret som kvalificeret, end der er for, at en ikke-kvalificeret mand bliver det.

Ikke-kvalificerede kvinder har 50 procent chance for at blive klassificeret som kvalificerede.
Ikke-kvalificerede mænd har ingen chance for at blive det.

Det vil sige, at algoritmen fanger alle de ukvalificerede mænd, men lader hver anden ukvalificerede kvinde slippe igennem til en jobsamtale.

Algoritmen kan ikke opfylde alle krav til fairness samtidigt

Baggrunden for, at vi ikke kan sikre, at algoritmens klassifikationer med lige stor sandsynlighed er korrekte for begge grupper, og samtidig sikre, at medlemmer af begge grupper har samme sandsynlighed for at få en sand klassifikation givet deres faktiske kvalifikation, er, at disse to grupper ikke har samme base rate af kvalificerede individer.

Fordi kvinder i vores eksempel faktisk har højere sandsynlighed for at være ikke-kvalificerede end mænd (20 procent vs. 11 procent), vil algoritmen klassificere en større procentdel af kvinder end mænd som ikke-kvalificerede.

Og som en konsekvens vil der være en større procentdel af falske klassificeringer af kvinder end mænd som ikke-kvalificerede.

Derfor kan det ikke lade sig gøre at opfylde alle tre umiddelbart plausible krav til en fair algoritme på én gang.

Matematik og datavidenskab kan ikke stå alene

I de seneste 4-5 år har der været en eksplosiv stigning i publikationer om fair algoritmer, og forskere har foreslået mere end 20 forskellige måder, hvorpå man kan operationalisere og måle en algoritmes fairness.

Men der er også begyndt at komme en forståelse af, at man ikke kan bestemme, hvorvidt en algoritme er fair på baggrund af matematik og datavidenskab alene.

Det er i høj grad et etisk spørgsmål.

Hvordan skal vi som samfund forholde os til, at en algoritme ikke på én og samme tid kan stille sensitive grupper lige, i forhold til hvor ofte algoritmen tager fejl, og hvem der bliver kvalificeret korrekt?

Vi skal tænke os om

Nogle vil argumentere for, at vi så slet ikke skal anvende algoritmer. Andre vil fremføre, at for så vidt de pågældende uligheder fremkommer som en matematisk konsekvens af forskellige base rates, er det slet ikke unfair.

Vi mener, at begge disse konklusioner er forhastede.

Anvendelse af algoritmer kan på mange måder sikre både bedre og mere ligelig behandling af individer.

Eksempelvis behandler algoritmer ens individer ens, hvorimod mennesker, på godt og ondt, kan komme til at behandle ens individer forskelligt på grund af irrelevante forskelle.

Men det er samtidig også et reelt problem, hvis relevante grupper i samfundet ikke stilles lige med hensyn til adgangen til visse goder i samfundet, som eksempelvis jobs.

Vi mener, at vejen frem er at overveje, hvordan vi skal afveje de forskellige former for ulighed i relation til forskellige anvendelser af algoritmer.

Her har vi eksemplificeret fairness problematikken i form af en algoritme anvendt på jobansøgninger.

Problemstillingen er imidlertid ikke begrænset til et bestemt anvendelsesområde, men gælder generelt for den type statistiske metoder, som algoritmer anvender. Et andet vigtigt område, hvor man har store forventninger til forudsigelsesalgoritmer, er i sundhedsvæsenet.

I vores forskningsprojekt vil vi på baggrund af et tværfagligt samarbejde komme med bud på, hvordan man kan håndtere fairnessproblematikken i relation til eksempelvis udvikling af algoritmer, der kan anvendes som støtte til diagnoser af depression, og hvordan man i praksis kan operationalisere svar på dem matematisk.

Credit

Topbillede: Kunstig intelligens findes i mange forskellige former. På billedet ses den menneskelignende robot Sophia, der kan føre samtaler. (Foto: International Telecommunication Union / CC BY 2.0)

Kan kunstig intelligens give fair forudsigelser?

Kontakt

Kilder

Artiklen

Credit

Nyheder og filtrering