Proč používáme v AI modely černých skříněk, když to nepotřebujeme? A Lesson From An Explainable AI Competition

V roce 2018 se uskutečnila přelomová soutěž v oblasti umělé inteligence (AI), a to Explainable Machine Learning Challenge. Cílem soutěže bylo vytvořit složitý model černé skříňky pro soubor dat a vysvětlit, jak funguje. Jeden tým se pravidly neřídil. Místo aby poslali černou skříňku, vytvořili model, který byl plně interpretovatelný. To vede k otázce, zda se skutečný svět strojového učení podobá soutěži Explainable Machine Learning Challenge, kde se modely černých skříněk používají, i když nejsou potřeba. Rozebíráme myšlenkové postupy tohoto týmu během soutěže a jejich důsledky, které sahají daleko za hranice samotné soutěže.
Klíčová slova: interpretovatelnost, vysvětlitelnost, strojové učení, finance

V prosinci 2018 se stovky špičkových počítačových vědců, finančních inženýrů a vedoucích pracovníků tísnily v místnosti v Montrealském kongresovém centru na každoroční konferenci Neural Information Processing Systems (NeurIPS), aby si vyslechly výsledky Explainable Machine Learning Challenge, prestižní soutěže pořádané ve spolupráci společností Google, Fair Isaac Corporation (FICO) a akademiků z Berkeley, Oxfordu, Imperialu, UC Irvine a MIT. Jednalo se o první soutěž v oblasti datové vědy, která odrážela potřebu dát smysl výsledkům vypočteným pomocí modelů černých skříněk, které dominují rozhodování založenému na strojovém učení.

V posledních několika letech vedl pokrok v oblasti hlubokého učení pro počítačové vidění k rozšířenému přesvědčení, že nejpřesnější modely pro jakýkoli daný problém datové vědy musí být ze své podstaty neinterpretovatelné a komplikované. Toto přesvědčení vychází z historického využití strojového učení ve společnosti: jeho moderní techniky se zrodily a byly vyšlechtěny pro rozhodování s nízkými sázkami, jako je online reklama a webové vyhledávání, kde jednotlivá rozhodnutí nemají hluboký vliv na lidské životy.

Ve strojovém učení jsou tyto modely černých skříněk vytvářeny přímo z dat algoritmem, což znamená, že lidé, dokonce ani ti, kteří je navrhují, nemohou pochopit, jak jsou proměnné kombinovány, aby vytvořily předpovědi. I když má člověk k dispozici seznam vstupních proměnných, predikční modely černých skříněk mohou být tak komplikovanými funkcemi proměnných, že žádný člověk nemůže pochopit, jak jsou proměnné společně propojeny, aby se dospělo ke konečné předpovědi.

Interpretovatelné modely, které poskytují technicky rovnocennou, ale možná etičtější alternativu k modelům černých skříněk, jsou jiné – jsou omezeny tak, aby poskytovaly lepší pochopení toho, jak se předpovědi vytvářejí. V některých případech může být zcela jasné, jak jsou proměnné společně propojeny, aby vytvořily konečnou předpověď, kde se třeba kombinuje jen několik proměnných v krátkém logickém výroku, nebo pomocí lineárního modelu, kde se proměnné váží a sčítají. Někdy se interpretovatelné modely skládají z jednodušších modelů poskládaných dohromady (dekomponovatelných) nebo se na model kladou další omezení, která přidávají novou úroveň vhledu. Většina modelů strojového učení však není navržena s omezeními interpretovatelnosti; jsou pouze navrženy tak, aby byly přesnými prediktory na statickém souboru dat, který může, ale nemusí představovat, jak by se model používal v praxi.

Přesvědčení, že přesnost musí být obětována interpretovatelnosti, je nepřesné. Umožnilo společnostem uvádět na trh a prodávat proprietární nebo komplikované modely „černých skříněk“ pro rozhodnutí s vysokou mírou rizika, když pro stejné úlohy existují velmi jednoduché interpretovatelné modely. Jako takový umožňuje tvůrcům modelu profitovat bez ohledu na škodlivé důsledky pro dotčené osoby. Málokdo tyto modely zpochybňuje, protože jejich tvůrci tvrdí, že modely musí být složité, aby byly přesné. Výzva Explainable Machine Learning Challenge 2018 slouží jako případová studie pro zvážení kompromisů plynoucích z upřednostňování modelů černých skříněk před modely interpretovatelnými.

Před vyhlášením vítězů výzvy bylo publikum – složené z mocných hráčů v oblasti financí, robotiky a strojového učení – požádáno, aby se zapojilo do myšlenkového experimentu, v němž mělo rakovinu a potřebovalo operaci k odstranění nádoru. Na obrazovce byly zobrazeny dva obrázky. Jeden obrázek zobrazoval lidského chirurga, který mohl vysvětlit cokoli ohledně operace, ale měl 15% šanci, že během operace způsobí smrt. Druhý obrázek zobrazoval robotickou ruku, která mohla provést operaci s pouze 2% pravděpodobností selhání. Robot měl simulovat přístup černé skříňky k umělé inteligenci (AI). V tomto scénáři byla vyžadována naprostá důvěra v robota; robotovi nebylo možné klást žádné otázky a nebylo možné mu poskytnout žádné konkrétní informace o tom, jak dospěl ke svým rozhodnutím. Publikum pak bylo požádáno, aby zvednutím ruky hlasovalo, kterému z obou robotů by dalo přednost při provádění život zachraňující operace. Všichni kromě jedné ruky hlasovali pro robota.

Ačkoli se může zdát zřejmé, že 2% šance na úmrtí je lepší než 15% šance na úmrtí, takto formulované sázky na systémy umělé inteligence zastírají zásadnější a zajímavější úvahu: Proč musí být robot černá skříňka? Ztratil by robot schopnost provádět přesné operace, kdyby mu byla umožněna schopnost vysvětlit sám sebe? Nezlepšila by se díky lepší komunikaci mezi robotem a pacientem nebo lékařem péče o pacienta, místo aby se zhoršila? Nepotřeboval by pacient před operací robotovi vysvětlit, že má poruchu srážlivosti krve?

Tato možnost, že robot nemusí být černou skříňkou, nebyla prezentována jako možnost a posluchačům semináře byla dána pouze volba mezi přesnou černou skříňkou a nepřesnou skleněnou skříňkou. Posluchačům nebylo sděleno, jakým způsobem byla měřena přesnost chirurgických výsledků (na jaké populaci byla měřena 2 % a 15 %?), ani nebyli informováni o možných chybách v souboru dat, který byl použit k tréninku robota. Při předpokladu, že přesnost musí být na úkor interpretovatelnosti (schopnosti pochopit, proč chirurg dělá to, co dělá), tento mentální experiment nevzal v úvahu, že interpretovatelnost nemusí být na škodu přesnosti. Interpretovatelnost by dokonce mohla přesnost zlepšit, protože umožňuje pochopit, kdy se model, v tomto případě robotický chirurg, může mýlit.

Mít na výběr přesný stroj nebo srozumitelného člověka je falešná dichotomie. Pochopit ji jako takovou nám pomůže diagnostikovat problémy, které vyplynuly z používání modelů černých skříněk pro vysoce důležitá rozhodnutí v celé společnosti. Tyto problémy existují ve finančnictví, ale také ve zdravotnictví, trestním soudnictví a dalších oblastech.

Uveďme několik důkazů, že tento předpoklad (že musíme vždy obětovat určitou interpretovatelnost, abychom získali co nejpřesnější model) je nesprávný. V systému trestního soudnictví bylo opakovaně prokázáno (Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018; Tollenaar & van der Heijden, 2013; Zeng, Ustun, & Rudin, 2016), že složité modely černých skříněk pro predikci budoucího zatčení nejsou o nic přesnější než velmi jednoduché predikční modely založené na věku a trestní minulosti. Například interpretovatelný model strojového učení pro predikci opětovného zatčení vytvořený v práci Angelino et al. (2018) bere v úvahu pouze několik pravidel o věku a trestní minulosti osoby. Úplný model strojového učení je následující: pokud má osoba buď >3 předchozí trestné činy, nebo je jí 18-20 let a je muž, nebo je jí 21-23 let a má dva nebo tři předchozí trestné činy, předpovídá se, že bude znovu zatčena do dvou let od svého hodnocení, a jinak ne. Ačkoli nutně neobhajujeme používání tohoto konkrétního modelu v prostředí trestní justice, je tento soubor pravidel stejně přesný jako široce používaný (a patentovaný) model černé skříňky nazvaný COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), který se používá v okrese Broward na Floridě (Angelino et al., 2018).

Výše uvedený jednoduchý model je také stejně přesný jako mnoho dalších nejmodernějších metod strojového učení (Angelino et al., 2018). Podobné výsledky byly zjištěny napříč metodami strojového učení aplikovanými na mnoho různých typů problémů predikce rearrestů na jiných souborech dat: interpretovatelné modely (což byly v těchto studiích velmi malé lineární modely nebo logické modely) fungovaly stejně dobře jako složitější (black box) modely strojového učení (Zeng et al., 2016). Nezdá se, že by použití modelů černé skříňky pro predikci kriminálního rizika bylo přínosné. Ve skutečnosti mohou mít tyto černé skříňky nevýhodu v tom, že je obtížnější řešit problémy, důvěřovat jim a používat je.

Nezdá se také, že by modely černých skříněk byly přínosem z hlediska přesnosti v několika oblastech zdravotní péče a v mnoha dalších aplikacích strojového učení s vysokou mírou rizika, kde se přijímají rozhodnutí, která ovlivňují život (např, Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018, kteří všichni ukazují modely s omezeními interpretovatelnosti, které fungují stejně dobře jako modely bez omezení). Naopak modely černých skříněk mohou maskovat nesčetné množství možných závažných chyb (viz např. Rudin, 2019). Dokonce i v oblasti počítačového vidění, kde jsou nejmodernějším modelem hluboké neuronové sítě (nejobtížněji vysvětlitelný druh modelu černé skříňky), jsme my i další vědci (např. Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019) našli způsoby, jak do modelů hlubokého učení přidat omezení interpretovatelnosti, což vede k transparentnějším výpočtům. Tato omezení interpretovatelnosti nejsou na úkor přesnosti, a to ani u hlubokých neuronových sítí pro počítačové vidění.

Důvěřovat modelu černé skříňky znamená důvěřovat nejen rovnicím modelu, ale také celé databázi, ze které byl sestaven. Například ve scénáři robota a chirurga, aniž bychom věděli, jak byla odhadnuta 2 % a 15 %, bychom měli zpochybnit relevanci těchto čísel pro jakoukoli konkrétní subpopulaci lékařských pacientů. Každý rozumně komplexní soubor dat, který jsme viděli, obsahuje nedokonalosti. Ty mohou sahat od obrovského množství chybějících údajů (které nechybí náhodně) nebo neměřených zmatků až po systematické chyby v souboru dat (např, nesprávné kódování léčby léky), až po problémy se sběrem dat, které způsobují, že rozložení dat je jiné, než jsme si původně mysleli.

Jedním z takových běžných problémů u modelů černých skříněk v lékařském prostředí je únik dat, kdy se do proměnných x vkrádají některé informace o označení y způsobem, který byste při pohledu na názvy a popisy proměnných netušili: někdy si myslíte, že předpovídáte něco v budoucnosti, ale zjišťujete pouze něco, co se stalo v minulosti. Při předpovídání lékařských výsledků může stroj zachytit informace v poznámkách lékařů, které odhalují výsledek pacientů dříve, než je oficiálně zaznamenán, a tudíž je chybně prohlásit za úspěšné předpovědi.

Ve snaze počítat s rozšířenými obavami z neprůhlednosti modelů černých skříněk se někteří vědci pokusili nabídnout jejich vysvětlení, hypotézy o tom, proč dospívají k rozhodnutím, ke kterým dospívají. Taková vysvětlení se obvykle snaží buď napodobit předpovědi černé skříňky pomocí zcela jiného modelu (možná s jinými důležitými proměnnými, čímž se maskuje to, co by černá skříňka mohla ve skutečnosti dělat), nebo poskytují jinou statistiku, která přináší neúplnou informaci o výpočtu černé skříňky. Taková vysvětlení jsou povrchní, nebo dokonce prázdná, protože rozšiřují autoritu černé skříňky, místo aby uznala, že to není nutné. A někdy jsou tato vysvětlení chybná.

Například když se novináři z ProPublica snažili vysvětlit, co je obsaženo v patentovaném modelu COMPAS pro predikci recidivy (Angwin et al., 2016), zřejmě mylně předpokládali, že pokud lze vytvořit lineární model, který se blíží modelu COMPAS a závisí na rase, věku a trestní minulosti, musí i samotný COMPAS záviset na rase. Když však aproximujeme COMPAS pomocí nelineárního modelu, explicitní závislost na rase zmizí (Rudin, Wang, & Coker, 2019) a zůstane závislost na rase pouze prostřednictvím věku a trestní minulosti. To je příklad toho, jak se nesprávné vysvětlení černé skříňky může vymknout kontrole. Možná kdyby justice používala pouze interpretovatelné modely (které jsme my i jiní prokázali jako stejně přesné), mohli by novináři ProPublica napsat jiný příběh. Možná by například mohli psát o tom, jak často dochází k typografickým chybám v těchto výsledcích, aniž by byl zřejmý způsob, jak je odstranit, což vede k nedůslednému rozhodování o životě v justičním systému (viz např. Rudin et al., 2019).

Ale zpět na konferenci NeurIPS 2018, v místnosti plné odborníků, kteří právě dali přednost robotovi před chirurgem, pokračoval hlasatel v popisu soutěže. Společnost FICO poskytla soubor dat o úvěrové lince na bydlení (HELOC), který obsahuje údaje od tisíců anonymních osob, včetně aspektů jejich úvěrové historie a toho, zda daná osoba nesplácela úvěr. Cílem soutěže bylo vytvořit model černé skříňky pro předpovídání nesplácení úvěru a poté tuto černou skříňku vysvětlit.

Dalo by se předpokládat, že pro soutěž, která vyžaduje, aby soutěžící vytvořili černou skříňku a vysvětlili ji, bude problém skutečně potřebovat černou skříňku. Ale nebylo tomu tak. Už v červenci 2018, kdy tým Duke obdržel data, jsme si po zhruba týdenním hraní s nimi uvědomili, že data FICO můžeme efektivně analyzovat i bez černé skříňky. Bez ohledu na to, zda jsme použili hlubokou neuronovou síť nebo klasické statistické techniky pro lineární modely, jsme zjistili, že mezi metodami je méně než 1% rozdíl v přesnosti, což je v rámci chyby způsobené náhodným výběrem dat. Dokonce i když jsme použili techniky strojového učení, které poskytovaly velmi dobře interpretovatelné modely, byli jsme schopni dosáhnout přesnosti, která odpovídala přesnosti nejlepšího modelu černé skříňky. V té chvíli jsme si lámali hlavu nad tím, co dělat. Měli bychom hrát podle pravidel a poskytnout porotcům černou skříňku a pokusit se ji vysvětlit? Nebo bychom měli poskytnout transparentní, interpretovatelný model? Jinými slovy, co uděláte, když zjistíte, že jste byli vnuceni do falešné dichotomie robota a chirurga?“

Náš tým se rozhodl, že u tak důležitého problému, jako je bodování úvěrů, nebudeme porotcům poskytovat černou skříňku pouze za účelem jejího vysvětlení. Místo toho jsme vytvořili interpretovatelný model, o kterém jsme si mysleli, že ho pochopí i bankovní zákazník s malým matematickým vzděláním. Model byl rozložitelný na různé minimodely, přičemž každý z nich bylo možné pochopit samostatně. Vytvořili jsme také další interaktivní online vizualizační nástroj pro věřitele a jednotlivce. Hraní si s faktory úvěrové historie na našich webových stránkách by lidem umožnilo pochopit, které faktory jsou důležité pro rozhodování o žádosti o úvěr. Žádná černá skříňka. Věděli jsme, že tímto způsobem soutěž pravděpodobně nevyhrajeme, ale šlo nám o něco víc.“

Někdo by si mohl myslet, že existuje spousta aplikací, kde interpretovatelné modely nemohou být tak přesné jako modely černé skříňky. Koneckonců, pokud byste mohli vytvořit přesný interpretovatelný model, proč byste pak používali černou skříňku? Jak však ukázala soutěž Explainable Machine Learning Challenge, ve skutečnosti existuje mnoho aplikací, kde se lidé nesnaží sestavit interpretovatelný model, protože se mohou domnívat, že pro složitý soubor dat nemůže být interpretovatelný model tak přesný jako černá skříňka. Nebo možná chtějí zachovat model jako proprietární. Pak lze uvažovat o tom, že pokud lze interpretovatelné modely hlubokého učení konstruovat pro počítačové vidění a analýzu časových řad (např. Chen et al., 2019; Y. Li et al., 2017; O. Li et al., 2018; Ming et al., 2019), pak by se měl změnit standard z předpokladu, že interpretovatelné modely neexistují, na předpoklad, že existují, dokud se neprokáže opak.

Dále, když vědci pochopí, co dělají, když vytvářejí modely, mohou vytvářet systémy umělé inteligence, které budou lépe sloužit lidem, kteří se na ně spoléhají. V těchto případech se ukazuje, že tzv. kompromis mezi přesností a interpretovatelností je mylný: interpretovatelnější modely se často stávají přesnějšími (a ne méně).

Falešná dichotomie mezi přesnou černou skříňkou a nepříliš přesným transparentním modelem zašla příliš daleko. Když jsou touto dichotomií klamány stovky předních vědců a manažerů finančních společností, představte si, jak může být klamán i zbytek světa. Důsledky jsou hluboké: ovlivňuje to fungování našeho systému trestního soudnictví, našich finančních systémů, systémů zdravotní péče a mnoha dalších oblastí. Trvejme na tom, abychom nepoužívali modely strojového učení typu black box pro rozhodnutí s vysokými sázkami, pokud nelze sestavit interpretovatelný model, který by dosahoval stejné úrovně přesnosti. Je možné, že interpretovatelný model lze zkonstruovat vždy – jen jsme se o to zatím nepokoušeli. Možná, že kdybychom to udělali, vůbec bychom pro tato rozhodnutí s vysokými sázkami nepoužívali černé skříňky.

Poznámky

Webovou stránku Explainable Machine Learning Challenge najdete zde: https://community.fico.com/s/explainable-machine-learning-challenge
Tento článek vychází z Rudinových zkušeností se soutěží Explainable Machine Learning Challenge 2018.
Čtenáři si mohou pohrát s naším interaktivním soutěžním příspěvkem do výzvy zde: http://dukedatasciencefico.cs.duke.edu
Náš příspěvek podle hodnocení organizátorů soutěže skutečně nevyhrál. Porotcům nebyla vůbec umožněna interakce s naším modelem a jeho vizualizačním nástrojem; po uzávěrce přihlášek bylo rozhodnuto, že porotcům nebudou poskytnuty žádné interaktivní vizualizace. Společnost FICO však provedla vlastní oddělené hodnocení soutěžních prací a naše práce v jejich hodnocení dosáhla dobrých výsledků a získala cenu FICO Recognition Award za účast v soutěži. Zde je oznámení společnosti FICO o vítězích:

https://www.fico.com/en/newsroom/fico-announces-winners-of-inaugural-xml-challenge?utm_source=FICO-Community&utm_medium=xml-challenge-page
Pokud je autorům známo, byli jsme jediný tým, který poskytl interpretovatelný model, nikoli černou skříňku.

Angelino, E., Larus-Stone, N., Alabi, D., Seltzer, M., & Rudin, C. (2018). Učení ověřitelně optimálních seznamů pravidel pro kategoriální data. Journal of Machine Learning Research, 18(234), 1-78.

Caruana, R., Lou, Y., Gehrke, J., Koch, P., Sturm, M., & Elhadad, N. (2015). Srozumitelné modely pro zdravotní péči: Predikce rizika pneumonie a 30denní hospitalizace. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, Sydney, NSW, Australia, 721-1730.

Chen, C., Li, O., Barnett, A., Su, J., & Rudin, C. (2019). Takhle to vypadá: Deep learning for interpretable image recognition (Hluboké učení pro interpretovatelné rozpoznávání obrazu). Vancouver, Kanada, Advances in Neural Information Processing Systems.

Li, O., Liu, H., Chen, C., & Rudin, C. (2018). Deep learning for case-based reasoning through prototypes (Hluboké učení pro případové uvažování pomocí prototypů): Neuronová síť, která vysvětluje své předpovědi. The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), New Orleans, Louisiana, 3530-3587.

Li, Y., Murias, M., Major, S., Dawson, G., Dzirasa, K., Carin, L., & Carlson, D. E. (2017). Cílení na synchronizaci EEG/LFP pomocí neuronových sítí. Advances in Neural Information Processing Systems, Montreal, Kanada, 4620-4630.

Ming, Y., Xu, P., Qu, H., & Ren, L. (2019). Interpretovatelné a řiditelné učení sekvencí prostřednictvím prototypů. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Anchorage, Alaska, 903-913.

Razavian, N., Blecker, S., Schmidt, A. M., Smith-McLallen, A., Nigam, S., & Sontag, D. (2015). Predikce diabetu 2. typu na úrovni populace z údajů o pojistných událostech a analýzy rizikových faktorů. Big Data, 3, 277-287.

Angwin, J. a Larson, J. a Mattu, S. a Kirchner, L. Machine Bias. ProPublica, https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing, přístup 2016-5-23.

Rudin, C. (2019). Přestaňte vysvětlovat černé skříňky modelů strojového učení pro rozhodnutí s vysokými sázkami a místo toho používejte interpretovatelné modely. Nature Machine Intelligence, 1, 206-215.

Rudin, C., & Ustun, B. (2018). Optimalizované skórovací systémy: Toward trust in machine learning for healthcare and criminal justice. Interfaces, 48, 449-466.

Rudin, C., Wang, C., & Coker, B. (2019). Věk utajení a nespravedlnosti v predikci recidivy. Harvard Data Science Review (v tisku).

Tollenaar, N., & van der Heijden, P. G. M. (2013). Která metoda předpovídá recidivu nejlépe? Srovnání statistických predikčních modelů, modelů strojového učení a datového dolování. Journal of the Royal Statistical Society, Series A: Statistics in Society, 176, 565-584.

Zeng, J., Ustun, B., & Rudin, C. (2016). Interpretovatelné klasifikační modely pro predikci recidivy. Journal of the Royal Statistical Society, Series A: Statistics in Society, 180, 689-722.

Tento článek je © 2019 Cynthia Rudin a Joanna Radin. Článek je licencován pod mezinárodní licencí Creative Commons Uveďte autora (CC BY 4.0) (https://creativecommons.org/licenses/by/4.0/legalcode), pokud není u konkrétního materiálu obsaženého v článku uvedeno jinak. Článek by měl být připsán výše uvedeným autorkám.

Poznámky

Napsat komentář Zrušit odpověď na komentář