Why Are We Using Black Box Models in AI When We Don’t Need To? A Lesson From An Explainable AI Competition

I 2018 fandt der en skelsættende udfordring inden for kunstig intelligens (AI) sted, nemlig Explainable Machine Learning Challenge. Målet med konkurrencen var at skabe en kompliceret black box-model til datasættet og forklare, hvordan den fungerede. Et hold fulgte ikke reglerne. I stedet for at sende en black box ind, skabte de en model, der var fuldt fortolkelig. Dette fører til spørgsmålet om, hvorvidt den virkelige verden af maskinlæring ligner Explainable Machine Learning Challenge, hvor der anvendes black box-modeller, selv når der ikke er behov for dem. Vi diskuterer dette holds tankeprocesser under konkurrencen og deres implikationer, som rækker langt ud over selve konkurrencen.
Nøgleord: fortolkelighed, forklarbarhed, maskinlæring, finans

I december 2018 proppede hundredvis af topdataloger, finansingeniører og ledere sig sammen i et lokale i Montreal Convention Center på den årlige Neural Information Processing Systems (NeurIPS)-konference for at høre resultaterne af Explainable Machine Learning Challenge, en prestigefyldt konkurrence, der er organiseret i samarbejde mellem Google, Fair Isaac Corporation (FICO) og akademikere på Berkeley, Oxford, Imperial, UC Irvine og MIT. Dette var den første datavidenskabelige konkurrence, der afspejlede et behov for at give mening til resultater beregnet af de black box-modeller, der dominerer maskinlæringsbaseret beslutningstagning.

I løbet af de sidste par år har fremskridtene inden for deep learning til computervision ført til en udbredt tro på, at de mest præcise modeller til et givet datavidenskabeligt problem i sagens natur må være ufortolkelige og komplicerede. Denne overbevisning stammer fra den historiske brug af maskinlæring i samfundet: de moderne teknikker blev født og opdrættet til beslutninger med lav indsats som f.eks. online-reklamer og søgning på internettet, hvor individuelle beslutninger ikke har dybtgående indflydelse på menneskers liv.

I maskinlæring skabes disse black box-modeller direkte ud fra data af en algoritme, hvilket betyder, at mennesker, selv dem, der designer dem, ikke kan forstå, hvordan variabler kombineres for at lave forudsigelser. Selv hvis man har en liste over de indgående variabler, kan black box-prædiktionsmodeller være så komplicerede funktioner af variablerne, at intet menneske kan forstå, hvordan variablerne i fællesskab er relateret til hinanden for at nå frem til en endelig forudsigelse.

Interpretable modeller, som udgør et teknisk set tilsvarende, men muligvis mere etisk alternativ til black box-modeller, er anderledes – de er begrænset for at give en bedre forståelse af, hvordan forudsigelser foretages. I nogle tilfælde kan det gøres meget klart, hvordan variabler i fællesskab hænger sammen for at danne den endelige forudsigelse, hvor måske kun nogle få variabler kombineres i et kort logisk udsagn, eller ved hjælp af en lineær model, hvor variabler vægtes og lægges sammen. Nogle gange består fortolkelige modeller af enklere modeller, der er sat sammen (dekomponérbare), eller der sættes andre begrænsninger på modellen for at tilføje et nyt niveau af indsigt. De fleste maskinlæringsmodeller er imidlertid ikke udformet med fortolkningsbegrænsninger; de er blot udformet til at være nøjagtige forudsigere på et statisk datasæt, der måske eller måske ikke repræsenterer, hvordan modellen ville blive brugt i praksis.

Troen på, at nøjagtigheden skal ofres for fortolkningsmulighederne, er ukorrekt. Den har gjort det muligt for virksomheder at markedsføre og sælge proprietære eller komplicerede black box-modeller til beslutninger med stor betydning, når der findes meget enkle fortolkelige modeller, der kan fortolkes til de samme opgaver. Den gør det således muligt for modeludviklerne at tjene penge uden at tage hensyn til de skadelige konsekvenser for de berørte personer. Kun få sætter spørgsmålstegn ved disse modeller, fordi deres designere hævder, at modellerne skal være komplicerede for at være nøjagtige. Explainable Machine Learning Challenge 2018 tjener som et casestudie til at overveje de kompromiser, der er forbundet med at favorisere black box-modeller frem for fortolkelige modeller.

Før vinderne af udfordringen blev offentliggjort, blev publikum – bestående af magtfulde aktører inden for finans, robotteknologi og maskinlæring – bedt om at deltage i et tankeeksperiment, hvor de havde kræft og skulle opereres for at fjerne en tumor. To billeder blev vist på skærmen. Det ene billede forestillede en menneskelig kirurg, som kunne forklare alt om operationen, men som havde en 15 % chance for at forårsage døden under operationen. Det andet billede viste en robotarm, som kunne udføre operationen med kun 2 % chance for at fejle. Robotten skulle simulere en black box-tilgang til kunstig intelligens (AI). I dette scenarie var det nødvendigt at have fuld tillid til robotten; der kunne ikke stilles spørgsmål til robotten, og der kunne ikke gives nogen specifik forståelse af, hvordan den kom frem til sine beslutninger. Publikum blev derefter bedt om at række hånden op for at stemme på, hvilken af de to robotter de ville foretrække til at udføre en livreddende operation. Alle undtagen én hånd stemte for robotten.

Selv om det kan synes indlysende, at en chance på 2 % for dødelighed er bedre end en chance på 15 % for dødelighed, så skjuler en sådan formulering af AI-systemers indsats en mere grundlæggende og interessant overvejelse: Hvorfor skal robotten være en sort boks? Ville robotten miste sin evne til at udføre præcise operationer, hvis den blev udstyret med en evne til at forklare sig selv? Ville en bedre kommunikation mellem robotten og patienten eller en læge ikke forbedre patientbehandlingen snarere end at forringe den? Ville patienten ikke skulle være i stand til at forklare robotten, at han/hun havde en blodpropforstyrrelse inden operationen?

Denne mulighed, at robotten ikke behøvede at være en sort boks, blev ikke præsenteret som en mulighed, og publikum på workshoppen fik kun valget mellem den præcise sorte boks og den upræcise glasboks. Publikum fik ikke at vide, hvordan nøjagtigheden blev målt for de kirurgiske resultater (på hvilken population blev de 2 % og 15 % målt?), og de blev heller ikke informeret om potentielle fejl i det datasæt, der blev brugt til at træne robotten. Ved at antage, at nøjagtighed skal ske på bekostning af fortolkningsmulighederne (evnen til at forstå, hvorfor kirurgen gør, som han gør), blev der i dette mentale eksperiment ikke taget højde for, at fortolkningsmulighederne måske ikke skader nøjagtigheden. Fortolkeligheden kan endda forbedre nøjagtigheden, da den giver mulighed for at forstå, hvornår modellen, i dette tilfælde en robotkirurg, kan være ukorrekt.

Det er en falsk dikotomi at blive bedt om at vælge en præcis maskine eller et forståeligt menneske. At forstå det som sådan hjælper os til at diagnosticere de problemer, der er opstået som følge af brugen af black box-modeller til beslutninger med store indsatser i hele samfundet. Disse problemer findes inden for finanssektoren, men også inden for sundhedsvæsenet, strafferetsplejen og andre områder.

Lad os give nogle beviser for, at denne antagelse (at vi altid må ofre en vis fortolkelighed for at få den mest præcise model) er forkert. I strafferetssystemet er det gentagne gange blevet påvist (Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018; Tollenaar & van der Heijden, 2013; Zeng, Ustun, & Rudin, 2016), at komplicerede black box-modeller til forudsigelse af fremtidig anholdelse ikke er mere præcise end meget enkle forudsigelsesmodeller baseret på alder og kriminelle fortid. For eksempel overvejer en fortolkelig maskinlæringsmodel til forudsigelse af fornyet anholdelse, der er skabt i arbejdet af Angelino et al. (2018), kun nogle få regler om en persons alder og kriminelle historie. Den fulde maskinlæringsmodel er som følger: Hvis personen enten har >3 tidligere forbrydelser, eller er 18-20 år gammel og mand, eller er 21-23 år gammel og har to eller tre tidligere forbrydelser, forudsiges det, at vedkommende vil blive anholdt igen inden for to år fra evalueringen, og ellers ikke. Selv om vi ikke nødvendigvis går ind for at bruge denne særlige model i strafferetlige sammenhænge, er dette regelsæt lige så nøjagtigt som den bredt anvendte (og proprietære) black box-model kaldet COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), som anvendes i Broward County, Florida (Angelino et al., 2018).

Den enkle model ovenfor er også lige så nøjagtig som mange andre state-of-the-art maskinlæringsmetoder (Angelino et al., 2018). Lignende resultater blev fundet på tværs af maskinlæringsmetoder, der blev anvendt på mange forskellige typer af problemer med forudsigelse af tilbagefald på andre datasæt: de fortolkelige modeller (som var meget små lineære modeller eller logiske modeller i disse undersøgelser) klarede sig lige så godt som de mere komplicerede (black box) maskinlæringsmodeller (Zeng et al., 2016). Der synes ikke at være beviser for en fordel ved at anvende black box-modeller til forudsigelse af kriminelle risici. Faktisk kan der være ulemper ved, at disse sorte bokse er vanskeligere at fejlfinde, stole på og bruge.

Der synes heller ikke at være en fordel med hensyn til nøjagtighed for sorte boksmodeller i flere sundhedsdomæner og på tværs af mange andre maskinlæringsapplikationer med høj indsats, hvor der træffes livsændrende beslutninger (f.eks, Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018, som alle viser modeller med fortolkningsbegrænsninger, der klarer sig lige så godt som ubegrænsede modeller). Tværtimod kan black box-modeller maskere et utal af mulige alvorlige fejltagelser (se f.eks. Rudin, 2019). Selv inden for computervision, hvor dybe neurale netværk (den vanskeligste form for black box-model at forklare) er state-of-the-art, har vi og andre forskere (f.eks. Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019) fundet måder at tilføje fortolkningsbarhedsbegrænsninger til dybe læringsmodeller, hvilket fører til mere gennemsigtige beregninger. Disse fortolkningsbegrænsninger er ikke kommet på bekostning af nøjagtigheden, selv ikke for dybe neurale netværk til computervision.

Tro på en black box-model betyder, at man ikke kun stoler på modellens ligninger, men også på hele den database, som den er bygget ud fra. For eksempel bør vi i scenariet med robotten og kirurgen, uden at vide, hvordan de 2 % og 15 % blev estimeret, sætte spørgsmålstegn ved relevansen af disse tal for en bestemt subpopulation af medicinske patienter, hvis vi ikke ved, hvordan de 2 % og 15 % blev estimeret. Alle rimeligt komplekse datasæt, som vi har set, indeholder ufuldkommenheder. Det kan være alt fra enorme mængder manglende data (som ikke mangler tilfældigt) eller uopmålte forvekslingsfaktorer til systematiske fejl i datasættet (f.eks, ukorrekt kodning af lægemiddelbehandlinger), til dataindsamlingsproblemer, der medfører, at fordelingen af data er anderledes, end vi oprindeligt troede.

Et sådant almindeligt problem med black box-modeller i medicinske sammenhænge er datalækage, hvor nogle oplysninger om mærket y sniger sig ind i variablerne x på en måde, som man måske ikke anerkender ved at se på titlerne og beskrivelserne af variablerne: Nogle gange tror man, at man forudsiger noget i fremtiden, men man registrerer kun noget, der er sket i fortiden. I forbindelse med forudsigelse af medicinske resultater kan maskinen opsamle oplysninger i lægernes notater, der afslører patientens resultat, før det officielt registreres, og derfor fejlagtigt hævde, at disse er vellykkede forudsigelser.

I forsøget på at tage højde for den udbredte bekymring over uigennemsigtigheden af black box-modeller har nogle forskere forsøgt at give forklaringer på dem, hypoteser om, hvorfor de når frem til de beslutninger, de træffer. Sådanne forklaringer forsøger normalt enten at efterligne den sorte boks’ forudsigelser ved hjælp af en helt anden model (måske med andre vigtige variabler, der skjuler, hvad den sorte boks faktisk gør), eller de giver en anden statistik, der giver ufuldstændige oplysninger om beregningen af den sorte boks. Sådanne forklaringer er overfladiske eller endog hule, da de udvider den sorte boks’ autoritet i stedet for at erkende, at den ikke er nødvendig. Og nogle gange er disse forklaringer forkerte.

For eksempel, da ProPublica-journalisterne forsøgte at forklare, hvad der var i den proprietære COMPAS-model til forudsigelse af recidiv (Angwin et al., 2016), synes de fejlagtigt at have antaget, at hvis man kunne skabe en lineær model, der tilnærmede sig COMPAS og var afhængig af race, alder og kriminalhistorie, så må COMPAS selv være afhængig af race. Når man imidlertid tilnærmer COMPAS ved hjælp af en ikke-lineær model, forsvinder den eksplicitte afhængighed af race (Rudin, Wang, & Coker, 2019), og der er kun afhængighed af race tilbage gennem alder og kriminel historie. Dette er et eksempel på, hvordan en ukorrekt forklaring af en sort boks kan komme ud af kontrol i en spiral. Måske hvis retssystemet kun havde brugt fortolkelige modeller (som vi og andre har vist, at de er lige så præcise), ville ProPublicas journalister måske have været i stand til at skrive en anden historie. Måske kunne de f.eks. skrive om, hvordan typografiske fejl i disse scoringer forekommer hyppigt uden nogen indlysende måde at løse problemerne på, hvilket fører til inkonsekvente livsændrende beslutninger i retssystemet (se f.eks. Rudin et al., 2019).

Men tilbage på NeurIPS-konferencen i 2018, i rummet fuld af eksperter, der netop havde valgt robotten frem for kirurgen, fortsatte annoncøren med at beskrive konkurrencen. FICO havde stillet et datasæt til rådighed for et HELOC-lån (Home Equity Line of Credit), som indeholder data fra tusindvis af anonyme personer, herunder aspekter af deres kredithistorik, og hvorvidt personen misligholdte lånet eller ej. Målet med konkurrencen var at skabe en black box-model til forudsigelse af misligholdelse af lån og derefter forklare black boxen.

Man ville antage, at i en konkurrence, hvor deltagerne skulle skabe en black box og forklare den, ville problemet faktisk kræve en black box. Men det gjorde den ikke. Tilbage i juli 2018, da Duke-holdet modtog dataene, indså vi efter at have leget med dem i kun en uge eller deromkring, at vi effektivt kunne analysere FICO-dataene uden en black box. Uanset om vi brugte et dybt neuralt netværk eller klassiske statistiske teknikker til lineære modeller, fandt vi ud af, at der var mindre end 1 % forskel i nøjagtighed mellem metoderne, hvilket ligger inden for fejlmargenen forårsaget af tilfældig stikprøveudtagning af dataene. Selv når vi anvendte maskinlæringsteknikker, der gav meget fortolkelige modeller, kunne vi opnå en nøjagtighed, der svarede til den bedste black box-model. På det tidspunkt var vi forvirrede over, hvad vi skulle gøre. Skulle vi følge reglerne og levere en black box til dommerne og forsøge at forklare den? Eller skulle vi levere den gennemsigtige, fortolkelige model? Med andre ord, hvad gør man, når man opdager, at man er blevet tvunget ind i den falske dikotomi mellem robotten og kirurgen?

Vores hold besluttede, at for et så vigtigt problem som kreditvurdering ville vi ikke give en black box til dommergruppen blot for at forklare den. I stedet skabte vi en fortolkelig model, som vi troede, at selv en bankkunde med ringe matematisk baggrund ville være i stand til at forstå. Modellen kunne nedbrydes i forskellige mini-modeller, hvor hver enkelt model kunne forstås for sig selv. Vi skabte også et ekstra interaktivt online visualiseringsværktøj til långivere og privatpersoner. Ved at lege med de kredithistoriske faktorer på vores websted ville folk kunne forstå, hvilke faktorer der var vigtige for beslutninger om låneansøgning. Ingen sort boks overhovedet. Vi vidste, at vi sandsynligvis ikke ville vinde konkurrencen på den måde, men der var en større pointe, som vi var nødt til at gøre opmærksom på.

Man kunne tro, at der er en masse applikationer, hvor fortolkelige modeller umuligt kan være lige så præcise som black box-modeller. Hvis man trods alt kunne bygge en præcis fortolkelig model, hvorfor skulle man så bruge en black box? Men som Explainable Machine Learning Challenge afslørede, er der faktisk mange anvendelser, hvor folk ikke forsøger at konstruere en fortolkelig model, fordi de måske tror, at for et komplekst datasæt kan en fortolkelig model umuligt være lige så præcis som en black box. Eller måske ønsker de at bevare modellen som en proprietær model. Man kan så overveje, at hvis fortolkelige deep-learning-modeller kan konstrueres til computervision og tidsserieanalyse (f.eks. Chen et al., 2019; Y. Li et al., 2017; Y. Li et al., 2017; O. Li et al., 2018; Ming et al, 2019), så bør standarden ændres fra den antagelse, at fortolkelige modeller ikke findes, til den antagelse, at de findes, indtil det modsatte er bevist.

Dertil kommer, at når forskere forstår, hvad de gør, når de bygger modeller, kan de producere AI-systemer, der er bedre i stand til at tjene de mennesker, der er afhængige af dem. I disse tilfælde viser det sig, at den såkaldte afvejning af nøjagtighed og fortolkelighed er en fejlslutning: mere fortolkelige modeller bliver ofte mere (og ikke mindre) nøjagtige.

Den falske dikotomi mellem den nøjagtige sorte boks og den ikke så nøjagtige gennemsigtige model er gået for vidt. Når hundredvis af førende videnskabsmænd og ledere af finansvirksomheder bliver vildledt af denne dikotomi, så forestil dig, hvordan resten af verden også kan blive narret. Konsekvenserne er vidtrækkende: Det påvirker vores strafferetssystem, vores finansielle systemer, vores sundhedssystemer og mange andre områder. Lad os insistere på, at vi ikke bruger blackbox-maskinlæringsmodeller til beslutninger med store indsatser, medmindre der ikke kan konstrueres en fortolkelig model, der opnår samme grad af nøjagtighed. Det er muligt, at det altid er muligt at konstruere en fortolkelig model – vi har bare ikke forsøgt. Hvis vi gjorde det, ville vi måske slet ikke bruge sorte bokse til disse beslutninger med store indsatser.

Notes

The Explainable Machine Learning Challenge website is here: https://community.fico.com/s/explainable-machine-learning-challenge
Denne artikel er baseret på Rudins erfaringer med at konkurrere i Explainable Machine Learning Challenge 2018.
Læsere kan lege med vores interaktive konkurrencebidrag til udfordringen her: http://dukedatasciencefico.cs.duke.edu
Vores bidrag vandt faktisk ikke konkurrencen som bedømt af konkurrencens arrangører. Dommerne fik overhovedet ikke lov til at interagere med vores model og dens visualiseringsværktøj; det blev besluttet efter indsendelsesfristen, at der ikke ville blive stillet interaktive visualiseringer til rådighed for dommerne. FICO foretog imidlertid sin egen separate evaluering af konkurrencens bidrag, og vores bidrag scorede godt i deres evaluering og vandt FICO Recognition Award for konkurrencen. Her er FICO’s meddelelse om vinderne:

https://www.fico.com/en/newsroom/fico-announces-winners-of-inaugural-xml-challenge?utm_source=FICO-Community&utm_medium=xml-challenge-page
Så vidt forfatterne ved, var vi det eneste hold, der leverede en fortolkelig model i stedet for en black box.

Angelino, E., Larus-Stone, N., Alabi, D., Seltzer, M., & Rudin, C. (2018). Læring af certifiably optimale regellister for kategoriske data. Journal of Machine Learning Research, 18(234), 1-78.

Caruana, R., Lou, Y., Gehrke, J., Koch, P., Sturm, M., & Elhadad, N. (2015). Intelligible modeller for sundhedsvæsenet: Forudsigelse af risiko for lungebetændelse og 30-dages genindlæggelse på hospitalet. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, Sydney, NSW, Australien, 721-1730.

Chen, C., Li, O., Barnett, A., Su, J., & Rudin, C. (2019). Det ser sådan ud: Deep learning for interpretable image recognition. Vancouver, Canada, Advances in Neural Information Processing Systems.

Li, O., Liu, H., Chen, C., & Rudin, C. (2018). Dyb indlæring til sagsbaseret ræsonnement gennem prototyper: Et neuralt netværk, der forklarer sine forudsigelser. The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), New Orleans, Louisiana, 3530-3587.

Li, Y., Murias, M., Major, S., Dawson, G., Dzirasa, K., Carin, L., & Carlson, D. E. (2017). Målretning af EEG/LFP-synkronisering med neurale net. Advances in Neural Information Processing Systems, Montreal, Canada, 4620-4630.

Ming, Y., Xu, P., Qu, H., & Ren, L. (2019). Fortolkelig og styrbar sekvensindlæring via prototyper. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Anchorage, Alaska, 903-913.

Razavian, N., Blecker, S., Schmidt, A. M., Smith-McLallen, A., Nigam, S., & Sontag, D. (2015). Forudsigelse på befolkningsniveau af type 2-diabetes ud fra data om erstatningskrav og analyse af risikofaktorer. Big Data, 3, 277-287.

Angwin, J. og Larson, J. og Mattu, S. og Kirchner, L. Machine Bias. ProPublica, https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing, besøgt 2016-5-23.

Rudin, C. (2019). Stop med at forklare black box-maskinlæringsmodeller til beslutninger med store indsatser, og brug i stedet fortolkelige modeller. Nature Machine Intelligence, 1, 206-215.

Rudin, C., & Ustun, B. (2018). Optimerede scoringssystemer: Mod tillid til maskinlæring til sundhedspleje og strafferetspleje. Interfaces, 48, 449-466.

Rudin, C., Wang, C., & Coker, B. (2019). Hemmelighedens og uretfærdighedens alder i forudsigelse af recidivisme. Harvard Data Science Review (under tryk).

Tollenaar, N., & van der Heijden, P. G. M. (2013). Hvilken metode forudsiger recidivisme bedst? En sammenligning af statistiske, maskinlærings- og dataminingprædiktionsmodeller. Journal of the Royal Statistical Society, Series A: Statistics in Society, 176, 565-584.

Zeng, J., Ustun, B., & Rudin, C. (2016). Fortolkelige klassifikationsmodeller til forudsigelse af recidivisme. Journal of the Royal Statistical Society, Series A: Statistics in Society, 180, 689-722.

Denne artikel er © 2019 af Cynthia Rudin og Joanna Radin. Artiklen er licenseret under en Creative Commons Attribution (CC BY 4.0) International licens (https://creativecommons.org/licenses/by/4.0/legalcode), medmindre andet er angivet med hensyn til særligt materiale, der er inkluderet i artiklen. Artiklen bør tilskrives de forfattere, der er identificeret ovenfor.

Notes

Skriv et svar Annuller svar