Varför använder vi Black Box-modeller inom AI när vi inte behöver det? A Lesson From An Explainable AI Competition

Under 2018 ägde en banbrytande utmaning inom artificiell intelligens (AI) rum, nämligen Explainable Machine Learning Challenge. Målet med tävlingen var att skapa en komplicerad black box-modell för datasetet och förklara hur den fungerade. Ett lag följde inte reglerna. Istället för att skicka in en svart låda skapade de en modell som var fullt tolkningsbar. Detta leder till frågan om den verkliga världen av maskininlärning liknar Explainable Machine Learning Challenge, där black box-modeller används även när de inte behövs. Vi diskuterar det här lagets tankeprocesser under tävlingen och deras implikationer, som sträcker sig långt utanför själva tävlingen.
Nyckelord: tolkningsbarhet, förklarbarhet, maskininlärning, finans

I december 2018 trängdes hundratals toppdatavetare, finansingenjörer och chefer i ett rum i Montreal Convention Center vid den årliga konferensen NeurIPS (Neural Information Processing Systems) för att höra resultaten av Explainable Machine Learning Challenge, en prestigefylld tävling som organiserades i samarbete mellan Google, Fair Isaac Corporation (FICO) och akademiker vid Berkeley, Oxford, Imperial, UC Irvine och MIT. Detta var den första datavetenskapstävlingen som återspeglade ett behov av att göra resultaten som beräknats av de black box-modeller som dominerar maskininlärningsbaserat beslutsfattande begripliga.

Under de senaste åren har framstegen inom djupinlärning för datorseende lett till en utbredd övertygelse om att de mest exakta modellerna för varje givet datavetenskapsproblem måste vara i sig svårtolkade och komplicerade. Denna tro härrör från den historiska användningen av maskininlärning i samhället: dess moderna tekniker föddes och uppfostrades för beslut med låga insatser, t.ex. annonsering på nätet och webbsökning, där enskilda beslut inte har någon djupgående inverkan på människors liv.

I maskininlärning skapas dessa black box-modeller direkt från data av en algoritm, vilket innebär att människor, även de som utformar dem, inte kan förstå hur variablerna kombineras för att göra förutsägelser. Även om man har en lista över de ingående variablerna kan prediktionsmodellerna i svarta lådan vara så komplicerade funktioner av variablerna att ingen människa kan förstå hur variablerna gemensamt relateras till varandra för att nå en slutlig förutsägelse.

Intolkningsbara modeller, som utgör ett tekniskt likvärdigt, men möjligen mer etiskt alternativ till modeller i svarta lådan, är annorlunda – de är begränsade för att ge en bättre förståelse för hur förutsägelser görs. I vissa fall kan det göras mycket tydligt hur variabler är gemensamt relaterade för att bilda den slutliga förutsägelsen, där kanske bara några få variabler kombineras i ett kort logiskt uttalande, eller med hjälp av en linjär modell, där variablerna viktas och adderas tillsammans. Ibland består tolkningsbara modeller av enklare modeller som sätts samman (dekomponerbara), eller så sätts andra begränsningar på modellen för att lägga till en ny nivå av insikt. De flesta modeller för maskininlärning utformas dock inte med tolkningsbegränsningar; de utformas bara för att vara exakta prediktorer på en statisk datamängd som kanske eller kanske inte representerar hur modellen skulle användas i praktiken.

Tron om att noggrannhet måste offras för tolkningsbarhet är felaktig. Den har gjort det möjligt för företag att marknadsföra och sälja egenutvecklade eller komplicerade black box-modeller för beslut med höga insatser när det finns mycket enkla tolkningsbara modeller för samma uppgifter. Det gör det möjligt för modellskaparna att tjäna pengar utan att ta hänsyn till de skadliga konsekvenserna för de berörda personerna. Få ifrågasätter dessa modeller eftersom deras konstruktörer hävdar att modellerna måste vara komplicerade för att vara korrekta. Explainable Machine Learning Challenge 2018 fungerar som en fallstudie för att överväga kompromisserna med att gynna black box-modeller framför tolkningsbara modeller.

Innan vinnarna av utmaningen tillkännagavs, ombads publiken – som bestod av makthavare inom finans, robotik och maskininlärning – att delta i ett tankeexperiment där de hade cancer och behövde opereras för att ta bort en tumör. Två bilder visades på skärmen. Den ena bilden föreställde en mänsklig kirurg, som kunde förklara vad som helst om operationen, men som hade en 15-procentig chans att orsaka dödsfall under operationen. Den andra bilden visade en robotarm som kunde utföra operationen med endast 2 % chans att misslyckas. Roboten var tänkt att simulera en black box-strategi för artificiell intelligens (AI). I detta scenario krävdes total tillit till roboten; inga frågor kunde ställas till roboten och ingen specifik förståelse för hur den kom fram till sina beslut skulle ges. Publiken ombads sedan att räcka upp en hand för att rösta på vilken av de två de skulle föredra att utföra en livräddande operation. Alla utom en hand röstade för roboten.

Och även om det kan tyckas uppenbart att en 2-procentig dödlighet är bättre än en 15-procentig dödlighet, så döljer man en mer grundläggande och intressant aspekt genom att formulera AI-systemens insatser på detta sätt: Varför måste roboten vara en svart låda? Skulle roboten förlora sin förmåga att utföra korrekta operationer om den fick möjlighet att förklara sig själv? Skulle inte en bättre kommunikation mellan roboten och patienten, eller en läkare, förbättra patientvården i stället för att försämra den? Skulle inte patienten behöva kunna förklara för roboten att han eller hon har en blodproppssjukdom före operationen?

Denna möjlighet, att roboten inte behövde vara en svart låda, presenterades inte som ett alternativ, och åhörarna på workshopen fick bara välja mellan den exakta svarta lådan och den inexakta glaslådan. Publiken fick inte veta hur noggrannheten mättes för de kirurgiska resultaten (på vilken population mättes 2 % och 15 %?) och inte heller informerades de om eventuella brister i den datamängd som användes för att träna roboten. Genom att anta att noggrannhet måste ske på bekostnad av tolkningsbarhet (förmågan att förstå varför kirurgen gör som han eller hon gör), misslyckades man i detta mentala experiment med att ta hänsyn till att tolkningsbarheten kanske inte skadar noggrannheten. Tolkningsbarheten kan till och med förbättra noggrannheten, eftersom den gör det möjligt att förstå när modellen, i det här fallet en robotkirurg, kan vara felaktig.

Att bli ombedd att välja en noggrann maskin eller en begriplig människa är en falsk dikotomi. Att förstå den som sådan hjälper oss att diagnostisera de problem som har uppstått till följd av användningen av black box-modeller för beslut med höga insatser i hela samhället. Dessa problem finns inom finansbranschen, men också inom hälso- och sjukvården, straffrätten och andra områden.

Låt oss ge några bevis för att detta antagande (att vi alltid måste offra en viss tolkningsbarhet för att få den mest exakta modellen) är felaktigt. I det straffrättsliga systemet har det upprepade gånger visats (Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018; Tollenaar & van der Heijden, 2013; Zeng, Ustun, & Rudin, 2016) att komplicerade black-box-modeller för att förutsäga framtida gripanden inte är mer exakta än mycket enkla förutsägelsemodeller baserade på ålder och kriminell historia. Till exempel tar en tolkningsbar maskininlärningsmodell för att förutsäga återfångst som skapats i arbetet av Angelino et al. (2018) hänsyn till endast några få regler om någons ålder och brottshistoria. Den fullständiga maskininlärningsmodellen är följande: Om personen antingen har >3 tidigare brott, eller är 18-20 år och man, eller är 21-23 år och har två eller tre tidigare brott, förutspås personen bli återfångad inom två år från utvärderingen, och annars inte. Även om vi inte nödvändigtvis förespråkar att man ska använda just den här modellen i straffrättsliga sammanhang, är den här uppsättningen regler lika noggrann som den allmänt använda (och egenutvecklade) black box-modellen COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), som används i Broward County, Florida (Angelino et al., 2018).

Den enkla modellen ovan är också lika noggrann som många andra toppmoderna metoder för maskininlärning (Angelino et al., 2018). Liknande resultat hittades bland maskininlärningsmetoder som tillämpades på många olika typer av problem med prediktion av återfall i brott på andra dataset: de tolkningsbara modellerna (som var mycket små linjära modeller eller logiska modeller i dessa studier) presterade lika bra som de mer komplicerade (black box) maskininlärningsmodellerna (Zeng et al., 2016). Det verkar inte finnas några bevis för att det skulle vara fördelaktigt att använda black box-modeller för prediktion av brottsrisker. I själva verket kan det finnas nackdelar i och med att dessa svarta lådor är svårare att felsöka, lita på och använda.

Det verkar inte heller finnas någon fördel i fråga om noggrannhet för svarta lådor-modeller inom flera hälsovårdsdomäner och inom många andra maskininlärningstillämpningar med höga insatser där livsavgörande beslut fattas (t.ex, Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018, som alla visar modeller med tolkningsbegränsningar som presterar lika bra som modeller utan begränsningar). Tvärtom kan black box-modeller dölja en myriad av möjliga allvarliga misstag (se t.ex. Rudin, 2019). Till och med inom datorseende, där djupa neurala nätverk (den svåraste typen av black box-modell att förklara) är state-of-the-art, har vi och andra forskare (t.ex. Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019) funnit sätt att lägga till tolkningsbarhetsbegränsningar till modeller för djupinlärning, vilket leder till mer transparenta beräkningar. Dessa tolkningsbegränsningar har inte skett på bekostnad av noggrannhet, inte ens för djupa neurala nätverk för datorseende.

Tro på en black box-modell innebär att man inte bara litar på modellens ekvationer, utan också på hela den databas som den byggts upp utifrån. I scenariot med roboten och kirurgen bör vi till exempel, utan att veta hur 2 % och 15 % uppskattades, ifrågasätta relevansen av dessa siffror för en viss subpopulation av medicinska patienter. Alla någorlunda komplexa dataset som vi har sett innehåller brister. Det kan handla om allt från stora mängder saknade uppgifter (som inte saknas slumpmässigt), eller om okontrollerad förväxling, till systematiska fel i datasetet (t.ex, felaktig kodning av läkemedelsbehandlingar), till datainsamlingsproblem som gör att datafördelningen är annorlunda än vad vi ursprungligen trodde.

Ett sådant vanligt problem med black box-modeller i medicinska sammanhang är dataläckage, där viss information om etiketten y smyger sig in i variablerna x på ett sätt som man kanske inte skulle misstänka genom att titta på titlarna och beskrivningarna av variablerna: ibland tror man att man förutspår något i framtiden, men man upptäcker bara något som hänt i det förflutna. När det gäller att förutsäga medicinska resultat kan maskinen ta del av information i läkarens anteckningar som avslöjar patientens resultat innan det officiellt registreras och därmed felaktigt hävda att dessa resultat är framgångsrika förutsägelser.

I ett försök att ta hänsyn till den utbredda oron för oklarheterna i modellerna för svarta lådor har en del vetenskapsmän försökt att ge förklaringar till dem, hypoteser om varför de kommer fram till de beslut som de fattar. Sådana förklaringar försöker vanligtvis antingen efterlikna den svarta lådans förutsägelser med hjälp av en helt annan modell (kanske med andra viktiga variabler, vilket döljer vad den svarta lådan faktiskt gör), eller så tillhandahåller de en annan statistik som ger ofullständig information om den svarta lådans beräkning. Sådana förklaringar är ytliga, eller till och med ihåliga, eftersom de förlänger den svarta lådans auktoritet i stället för att erkänna att den inte är nödvändig. Och ibland är dessa förklaringar felaktiga.

Till exempel, när ProPublicas journalister försökte förklara vad som fanns i den proprietära COMPAS-modellen för prediktion av återfall i brott (Angwin et al., 2016) verkar de felaktigt ha antagit att om man kunde skapa en linjär modell som närmade sig COMPAS och som berodde på ras, ålder och kriminalhistoria, måste COMPAS självt vara beroende av ras. När man approximerar COMPAS med hjälp av en icke-linjär modell försvinner dock det explicita beroendet av ras (Rudin, Wang, & Coker, 2019) och lämnar beroendet av ras endast genom ålder och kriminell historia. Det här är ett exempel på hur en felaktig förklaring av en svart låda kan gå överstyr. Kanske hade ProPublicas journalister kunnat skriva en annan historia om rättsväsendet endast hade använt tolkningsbara modeller (som vi och andra har visat att de är lika korrekta). Kanske hade de till exempel kunnat skriva om hur typografiska fel i dessa poäng förekommer ofta, utan att det finns något uppenbart sätt att felsöka dem, vilket leder till inkonsekventa livsavgörande beslut i rättsväsendet (se t.ex. Rudin et al., 2019).

Men tillbaka på NeurIPS-konferensen 2018, i rummet fullt av experter som just hade valt roboten framför kirurgen, fortsatte meddelaren med att beskriva tävlingen. FICO hade tillhandahållit en HELOC-dataset (Home Equity Line of Credit), som innehåller data från tusentals anonyma individer, inklusive aspekter av deras kredithistorik och huruvida individen har försummat lånet eller inte. Målet med tävlingen var att skapa en black box-modell för att förutsäga att ett lån inte betalas ut, och sedan förklara black boxen.

Man skulle kunna anta att för en tävling som kräver att de tävlande skapar en black box och förklarar den, skulle problemet faktiskt behöva en black box. Men det gjorde det inte. Redan i juli 2018, när Duke-teamet fick uppgifterna, insåg vi efter att ha lekt med dem i bara någon vecka eller så, att vi effektivt kunde analysera FICO-data utan en svart låda. Oavsett om vi använde ett djupt neuralt nätverk eller klassiska statistiska tekniker för linjära modeller fann vi att det var mindre än 1 % skillnad i noggrannhet mellan metoderna, vilket ligger inom felmarginalen som orsakas av slumpmässig provtagning av data. Även när vi använde tekniker för maskininlärning som gav mycket tolkningsbara modeller kunde vi uppnå en noggrannhet som motsvarade den bästa black box-modellen. I det läget var vi förbryllade över vad vi skulle göra. Skulle vi följa reglerna och ge domarna en svart låda och försöka förklara den? Eller ska vi tillhandahålla en transparent, tolkningsbar modell? Med andra ord, vad gör man när man upptäcker att man har tvingats in i den falska dikotomin mellan roboten och kirurgen?

Vårt team beslutade att för ett problem som är så viktigt som kreditvärdering skulle vi inte tillhandahålla en svart låda till jurygruppen enbart i syfte att förklara den. I stället skapade vi en tolkningsbar modell som vi trodde att även en bankkund med liten matematisk bakgrund skulle kunna förstå. Modellen var nedbrytbar i olika minimodeller, där var och en kunde förstås på egen hand. Vi skapade också ytterligare ett interaktivt online-visualiseringsverktyg för långivare och privatpersoner. Genom att leka med faktorerna för kredithistoria på vår webbplats skulle människor kunna förstå vilka faktorer som var viktiga för beslut om låneansökan. Ingen svart låda alls. Vi visste att vi förmodligen inte skulle vinna tävlingen på det sättet, men det fanns en större poäng som vi behövde göra.

Man kan tycka att det finns många tillämpningar där tolkningsbara modeller omöjligen kan vara lika exakta som black box-modeller. Om man trots allt kan bygga en exakt tolkningsbar modell, varför skulle man då använda en svart låda? Men som Explainable Machine Learning Challenge avslöjade finns det faktiskt många tillämpningar där man inte försöker bygga en tolkningsbar modell, eftersom man kanske tror att en tolkningsbar modell för en komplex datamängd inte kan vara lika exakt som en svart låda. Eller så vill de kanske bevara modellen som en egen produkt. Man kan då tänka sig att om tolkningsbara djupinlärningsmodeller kan konstrueras för datorseende och analys av tidsserier (t.ex. Chen et al., 2019; Y. Li et al., 2017; O. Li et al., 2018; Ming et al, 2019), bör standarden ändras från antagandet att tolkningsbara modeller inte finns till antagandet att de finns, tills motsatsen bevisas.

För övrigt, när forskare förstår vad de gör när de bygger modeller, kan de producera AI-system som bättre kan tjäna de människor som förlitar sig på dem. I dessa fall visar sig den så kallade avvägningen mellan noggrannhet och tolkningsbarhet vara en villfarelse: mer tolkningsbara modeller blir ofta mer (och inte mindre) exakta.

Den falska dikotomin mellan den exakta svarta lådan och den inte så exakta genomskinliga modellen har gått för långt. När hundratals ledande vetenskapsmän och chefer i finansföretag vilseleds av denna dikotomi, tänk då hur resten av världen också kan bli lurad. Konsekvenserna är djupgående: det påverkar hur vårt straffrättsliga system, våra finansiella system, våra hälso- och sjukvårdssystem och många andra områden fungerar. Låt oss insistera på att vi inte använder svarta lådor med maskininlärningsmodeller för beslut med höga insatser om det inte går att konstruera någon tolkningsbar modell som uppnår samma noggrannhetsnivå. Det är möjligt att en tolkningsbar modell alltid kan konstrueras – vi har bara inte försökt. Om vi gjorde det kanske vi aldrig skulle använda svarta lådor för dessa viktiga beslut alls.

Notiser

  1. The Explainable Machine Learning Challenge website is here: https://community.fico.com/s/explainable-machine-learning-challenge

  2. Denna artikel bygger på Rudins erfarenhet av att tävla i Explainable Machine Learning Challenge 2018.

  3. Läsare kan leka med vårt interaktiva tävlingsbidrag för utmaningen här: http://dukedatasciencefico.cs.duke.edu

  4. Vårt bidrag vann faktiskt inte tävlingen enligt tävlingsarrangörerna. Domarna fick inte alls interagera med vår modell och dess visualiseringsverktyg; det beslutades efter sista inlämningsdag att inga interaktiva visualiseringar skulle tillhandahållas domarna. FICO genomförde dock sin egen separata utvärdering av tävlingsbidragen, och vårt bidrag fick ett bra resultat i deras utvärdering, vilket gav oss FICO Recognition Award för tävlingen. Här är FICO:s tillkännagivande av vinnarna:

    https://www.fico.com/en/newsroom/fico-announces-winners-of-inaugural-xml-challenge?utm_source=FICO-Community&utm_medium=xml-challenge-page

  5. Såvitt författarna vet var vi det enda laget som tillhandahöll en tolkningsbar modell i stället för en svart låda.

Angelino, E., Larus-Stone, N., Alabi, D., Seltzer, M., & Rudin, C. (2018). Inlärning av certifierbart optimala regellistor för kategoriska data. Journal of Machine Learning Research, 18(234), 1-78.

Caruana, R., Lou, Y., Gehrke, J., Koch, P., Sturm, M., & Elhadad, N. (2015). Intelligenta modeller för hälso- och sjukvård: Predicting pneumonia risk and hospital 30-day readmission. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, Sydney, NSW, Australia, 721-1730.

Chen, C., Li, O., Barnett, A., Su, J., & Rudin, C. (2019). This looks like that: Deep learning for interpretable image recognition. Vancouver, Kanada, Advances in Neural Information Processing Systems.

Li, O., Liu, H., Chen, C., & Rudin, C. (2018). Djupinlärning för fallbaserat resonemang genom prototyper: Ett neuralt nätverk som förklarar sina förutsägelser. The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), New Orleans, Louisiana, 3530-3587.

Li, Y., Murias, M., Major, S., Dawson, G., Dzirasa, K., Carin, L., & Carlson, D. E. (2017). Att rikta in sig på EEG/LFP-synkronisering med neurala nät. Advances in Neural Information Processing Systems, Montreal, Canada, 4620-4630.

Ming, Y., Xu, P., Qu, H., & Ren, L. (2019). Tolkningsbar och styrbar sekvensinlärning via prototyper. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Anchorage, Alaska, 903-913.

Razavian, N., Blecker, S., Schmidt, A. M., Smith-McLallen, A., Nigam, S., & Sontag, D. (2015). Prediktion av typ 2-diabetes på befolkningsnivå utifrån data från skadeanmälningar och analys av riskfaktorer. Big Data, 3, 277-287.

Angwin, J. and Larson, J. and Mattu, S. and Kirchner, L. Machine Bias. ProPublica, https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing, accessed 2016-5-23.

Rudin, C. (2019). Sluta förklara black box-modeller för maskininlärning för beslut med höga insatser och använd istället tolkningsbara modeller. Nature Machine Intelligence, 1, 206-215.

Rudin, C., & Ustun, B. (2018). Optimerade poängsystem: Toward trust in machine learning for healthcare and criminal justice. Interfaces, 48, 449-466.

Rudin, C., Wang, C., & Coker, B. (2019). Sekretessens och orättvisans tidsålder vid prediktion av återfall i brottslighet. Harvard Data Science Review (in press).

Tollenaar, N., & van der Heijden, P. G. M. (2013). Vilken metod förutsäger återfall i brott bäst? En jämförelse av statistiska, maskininlärnings- och datautvinningsprediktionsmodeller. Journal of the Royal Statistical Society, Series A: Statistics in Society, 176, 565-584.

Zeng, J., Ustun, B., & Rudin, C. (2016). Tolkningsbara klassificeringsmodeller för prediktion av återfall i brott. Journal of the Royal Statistical Society, Series A: Statistics in Society, 180, 689-722.

Denna artikel är © 2019 av Cynthia Rudin och Joanna Radin. Artikeln är licensierad under en Creative Commons Attribution (CC BY 4.0) International licens (https://creativecommons.org/licenses/by/4.0/legalcode), om inte annat anges med avseende på särskilt material som ingår i artikeln. Artikeln ska tillskrivas de författare som anges ovan.

Lämna ett svar

Din e-postadress kommer inte publiceras.