De ce folosim modele de tip „cutie neagră” în inteligența artificială atunci când nu este nevoie? A Lesson From An Explainable AI Competition

În 2018, a avut loc o provocare de referință în domeniul inteligenței artificiale (AI), și anume, Explainable Machine Learning Challenge. Scopul competiției a fost de a crea un model complicat de tip cutie neagră pentru setul de date și de a explica modul în care a funcționat. O echipă nu a respectat regulile. În loc să trimită o cutie neagră, au creat un model care era complet interpretabil. Acest lucru duce la întrebarea dacă lumea reală a învățării automate este similară cu cea a concursului Explainable Machine Learning Challenge, în care modelele de tip cutie neagră sunt folosite chiar și atunci când nu sunt necesare. Discutăm procesele de gândire ale acestei echipe în timpul competiției și implicațiile lor, care depășesc cu mult competiția în sine.
Cuvintele cheie: interpretabilitate, explicabilitate, învățare automată, finanțe

În decembrie 2018, sute de informaticieni de top, ingineri financiari și directori s-au înghesuit într-o sală din cadrul Centrului de Convenții din Montreal la conferința anuală Neural Information Processing Systems (NeurIPS) pentru a auzi rezultatele Explainable Machine Learning Challenge, o competiție prestigioasă organizată în colaborare între Google, Fair Isaac Corporation (FICO) și cadre universitare de la Berkeley, Oxford, Imperial, UC Irvine și MIT. Aceasta a fost prima competiție de știință a datelor care a reflectat nevoia de a da sens rezultatelor calculate de modelele de tip „cutie neagră” care domină procesul decizional bazat pe învățarea automată.

În ultimii ani, progresele înregistrate în domeniul învățării profunde pentru viziunea computerizată au dus la o convingere larg răspândită că cele mai precise modele pentru orice problemă de știință a datelor trebuie să fie în mod inerent neinterpretabile și complicate. Această convingere provine din utilizarea istorică a învățării automate în societate: tehnicile sale moderne s-au născut și au fost crescute pentru decizii cu miză mică, cum ar fi publicitatea online și căutarea pe internet, unde deciziile individuale nu afectează profund viețile oamenilor.

În învățarea automată, aceste modele de tip „cutie neagră” sunt create direct din date de către un algoritm, ceea ce înseamnă că oamenii, chiar și cei care le proiectează, nu pot înțelege modul în care sunt combinate variabilele pentru a face predicții. Chiar dacă se dispune de o listă a variabilelor de intrare, modelele predictive de tip „cutie neagră” pot fi funcții atât de complicate ale variabilelor încât niciun om nu poate înțelege modul în care variabilele sunt corelate împreună pentru a ajunge la o predicție finală.

Modelurile interpretabile, care oferă o alternativă echivalentă din punct de vedere tehnic, dar posibil mai etică la modelele de tip „cutie neagră”, sunt diferite – ele sunt constrânse pentru a oferi o mai bună înțelegere a modului în care sunt făcute predicțiile. În unele cazuri, se poate preciza foarte clar modul în care variabilele sunt legate împreună pentru a forma predicția finală, unde poate doar câteva variabile sunt combinate într-o scurtă declarație logică, sau folosind un model liniar, unde variabilele sunt ponderate și adunate. Uneori, modelele interpretabile sunt alcătuite din modele mai simple puse laolaltă (decompozabile), sau se pun alte constrângeri asupra modelului pentru a adăuga un nou nivel de înțelegere. Cu toate acestea, majoritatea modelelor de învățare automată nu sunt concepute cu constrângeri de interpretabilitate; ele sunt concepute doar pentru a fi predictori exacți pe un set de date static care poate sau nu să reprezinte modul în care modelul ar fi utilizat în practică.

Credința că acuratețea trebuie sacrificată pentru interpretabilitate este incorectă. Ea a permis companiilor să comercializeze și să vândă modele de tip black box brevetate sau complicate pentru decizii cu miză mare, când există modele interpretabile foarte simple pentru aceleași sarcini. Ca atare, ea permite creatorilor de modele să profite fără a lua în considerare consecințele dăunătoare pentru persoanele afectate. Puțini pun la îndoială aceste modele, deoarece creatorii lor susțin că modelele trebuie să fie complicate pentru a fi precise. Provocarea Explainable Machine Learning Challenge din 2018 servește drept studiu de caz pentru a lua în considerare compromisurile pe care le presupune favorizarea modelelor de tip cutie neagră în detrimentul celor interpretabile.

Înainte de a fi anunțați câștigătorii provocării, audiența – formată din jucători puternici din domeniile finanțelor, roboticii și învățării automate – a fost rugată să se angajeze într-un experiment de gândire în care avea cancer și avea nevoie de o intervenție chirurgicală pentru a îndepărta o tumoare. Pe ecran au fost afișate două imagini. Una dintre imagini înfățișa un chirurg uman, care putea explica orice despre operație, dar care avea o șansă de 15% de a provoca moartea în timpul operației. Cealaltă imagine arăta un braț robotizat care putea efectua operația cu doar 2% șanse de eșec. Robotul era menit să simuleze o abordare de tip „cutie neagră” a inteligenței artificiale (AI). În acest scenariu, era necesară o încredere totală în robot; nu se putea pune nicio întrebare robotului și nu se putea înțelege în mod specific cum a ajuns la deciziile sale. Publicul a fost apoi rugat să ridice mâna pentru a vota pentru care dintre cei doi ar prefera să efectueze o operație de salvare a vieții. Toți, cu excepția unei singure mâini, au votat pentru robot.

În timp ce poate părea evident că o șansă de mortalitate de 2% este mai bună decât o șansă de mortalitate de 15%, încadrarea mizelor sistemelor de inteligență artificială în acest mod ascunde un considerent mai fundamental și mai interesant: De ce trebuie ca robotul să fie o cutie neagră? Și-ar pierde robotul capacitatea de a efectua intervenții chirurgicale precise dacă i s-ar da posibilitatea de a se explica singur? O mai bună comunicare între robot și pacient sau medic nu ar îmbunătăți îngrijirea pacientului, în loc să o diminueze? Nu ar trebui ca pacientul să fie capabil să explice robotului că are o tulburare de coagulare a sângelui înainte de operație?

Această posibilitate, conform căreia robotul nu trebuie să fie o cutie neagră, nu a fost prezentată ca o opțiune, iar audienței atelierului i s-a oferit doar posibilitatea de a alege între o cutie neagră precisă și o cutie de sticlă inexactă. Audienței nu i s-a spus cum a fost măsurată acuratețea pentru rezultatele chirurgicale (pe ce populație au fost măsurate cele 2 % și 15 %?) și nici nu i s-a spus despre potențialele defecte din setul de date care a fost utilizat pentru a antrena robotul. Presupunând că acuratețea trebuie să vină cu prețul interpretabilității (capacitatea de a înțelege de ce chirurgul face ceea ce face), acest experiment mental nu a luat în considerare faptul că interpretabilitatea ar putea să nu dăuneze acurateței. Interpretabilitatea ar putea chiar să îmbunătățească acuratețea, deoarece permite înțelegerea momentului în care modelul, în acest caz un chirurg robotizat, ar putea fi incorect.

Să ni se ceară să alegem o mașină precisă sau un om inteligibil este o dihotomie falsă. Înțelegerea ei ca atare ne ajută să diagnosticăm problemele care au rezultat din utilizarea modelelor de tip cutie neagră pentru decizii cu miză mare în întreaga societate. Aceste probleme există în finanțe, dar și în sănătate, în justiția penală și nu numai.

Să oferim câteva dovezi că această presupunere (că trebuie să sacrificăm întotdeauna o anumită interpretabilitate pentru a obține cel mai precis model) este greșită. În sistemul de justiție penală, s-a demonstrat în mod repetat (Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018; Tollenaar & van der Heijden, 2013; Zeng, Ustun, & Rudin, 2016) că modelele complicate de tip „cutie neagră” pentru prezicerea viitoarelor arestări nu sunt cu nimic mai precise decât modelele predictive foarte simple bazate pe vârstă și antecedente penale. De exemplu, un model interpretabil de învățare automată pentru prezicerea arestării din nou, creat în lucrarea lui Angelino et al. (2018), ia în considerare doar câteva reguli despre vârsta și istoricul infracțional al unei persoane. Modelul complet de învățare automată este următorul: dacă persoana are fie >3 infracțiuni anterioare, fie are 18-20 de ani și este de sex masculin, fie are 21-23 de ani și are două sau trei infracțiuni anterioare, se prezice că va fi arestată din nou în termen de doi ani de la evaluare, iar în caz contrar, nu. Deși nu pledăm neapărat pentru utilizarea acestui model special în mediile de justiție penală, acest set de reguli este la fel de precis ca modelul cu cutie neagră utilizat pe scară largă (și brevetat) numit COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), așa cum este utilizat în Broward County, Florida (Angelino et al., 2018).

Modelul simplu de mai sus este, de asemenea, la fel de precis ca multe alte metode de învățare automată de ultimă generație (Angelino et al., 2018). Rezultate similare au fost găsite în cadrul metodelor de învățare automată aplicate la multe tipuri diferite de probleme de predicție a recidivelor pe alte seturi de date: modelele interpretabile (care au fost modele liniare foarte mici sau modele logice în aceste studii) s-au comportat la fel de bine ca și modelele de învățare automată mai complicate (black box) (Zeng et al., 2016). Nu pare să existe dovezi ale unui beneficiu din utilizarea modelelor de tip black box pentru predicția riscului infracțional. De fapt, ar putea exista dezavantaje în sensul că aceste cutii negre sunt mai dificil de depanat, de încredere și de utilizat.

De asemenea, nu pare să existe un beneficiu în ceea ce privește acuratețea modelelor cu cutie neagră în mai multe domenii de asistență medicală și în multe alte aplicații de învățare automată cu miză mare în care se iau decizii care afectează viața (de ex, Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018, care arată cu toții modele cu constrângeri de interpretabilitate care se comportă la fel de bine ca și modelele fără constrângeri). Dimpotrivă, modelele cu cutie neagră pot masca o multitudine de posibile greșeli grave (de exemplu, a se vedea Rudin, 2019). Chiar și în domeniul vederii computerizate, unde rețelele neuronale profunde (cel mai dificil de explicat tip de model cu cutie neagră) reprezintă stadiul actual al tehnologiei, noi și alți oameni de știință (de exemplu, Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019) am găsit modalități de a adăuga constrângeri de interpretabilitate la modelele de învățare profundă, ceea ce duce la calcule mai transparente. Aceste constrângeri de interpretabilitate nu au venit în detrimentul preciziei, chiar și în cazul rețelelor neuronale profunde pentru viziunea computerizată.

Încrederea într-un model de tip cutie neagră înseamnă că aveți încredere nu numai în ecuațiile modelului, ci și în întreaga bază de date din care a fost construit. De exemplu, în scenariul robotului și al chirurgului, fără a ști cum au fost estimate cele 2% și 15%, ar trebui să punem sub semnul întrebării relevanța acestor cifre pentru o anumită subpopulație de pacienți medicali. Fiecare set de date rezonabil de complex pe care l-am văzut conține imperfecțiuni. Acestea pot varia de la cantități uriașe de date lipsă (care nu lipsesc la întâmplare), sau confuzie nemăsurată, până la erori sistematice în setul de date (de ex, codificarea incorectă a tratamentelor medicamentoase), până la probleme de colectare a datelor care fac ca distribuția datelor să fie diferită de ceea ce am crezut inițial.

O astfel de problemă frecventă cu modelele cu cutie neagră în mediile medicale este scurgerea de date, în care unele informații despre eticheta y se strecoară în variabilele x într-un mod pe care nu l-ați putea suspecta uitându-vă la titlurile și descrierile variabilelor: uneori credeți că preziceți ceva în viitor, dar nu faceți decât să detectați ceva ce s-a întâmplat în trecut. În prezicerea rezultatelor medicale, mașina ar putea capta informații din notele medicilor care dezvăluie rezultatul pacienților înainte ca acesta să fie înregistrat oficial și, prin urmare, să le revendice în mod eronat ca fiind predicții reușite.

În încercarea de a ține cont de îngrijorarea larg răspândită cu privire la opacitatea modelelor cu cutie neagră, unii oameni de știință au încercat să ofere explicații ale acestora, ipoteze despre motivul pentru care ajung la deciziile pe care le iau. Astfel de explicații încearcă, de obicei, fie să imite predicțiile cutiei negre folosind un model complet diferit (poate cu variabile importante diferite, mascând ceea ce ar putea face de fapt cutia neagră), fie oferă o altă statistică care oferă informații incomplete despre calculul cutiei negre. Astfel de explicații sunt superficiale, sau chiar goale, deoarece extind autoritatea cutiei negre în loc să recunoască faptul că nu este necesară. Și, uneori, aceste explicații sunt greșite.

De exemplu, atunci când jurnaliștii de la ProPublica au încercat să explice ce conținea modelul COMPAS brevetat de predicție a recidivei (Angwin et al., 2016), se pare că au presupus în mod eronat că, dacă se poate crea un model liniar care să se apropie de COMPAS și să depindă de rasă, vârstă și antecedente penale, atunci COMPAS însuși trebuie să depindă de rasă. Cu toate acestea, atunci când se aproximează COMPAS folosind un model neliniar, dependența explicită de rasă dispare (Rudin, Wang, & Coker, 2019), lăsând dependența de rasă doar prin intermediul vârstei și al antecedentelor penale. Acesta este un exemplu al modului în care o explicație incorectă a unei cutii negre poate scăpa de sub control. Poate că, dacă sistemul judiciar ar fi folosit doar modele interpretabile (despre care noi și alții am demonstrat că sunt la fel de precise), jurnaliștii de la ProPublica ar fi putut scrie o poveste diferită. Poate că, de exemplu, ar fi putut scrie despre modul în care erorile tipografice din aceste scoruri apar frecvent, fără nicio modalitate evidentă de a le rezolva, ceea ce duce la luarea unor decizii inconsecvente care afectează viața în sistemul de justiție (a se vedea, de exemplu, Rudin et al., 2019).

Dar, la conferința NeurIPS din 2018, în sala plină de experți care tocmai aleseseră robotul în locul chirurgului, crainicul a continuat să descrie competiția. FICO pusese la dispoziție un set de date privind linia de credit cu capital propriu (HELOC), care conține date de la mii de persoane anonime, inclusiv aspecte ale istoricului lor de credit și dacă persoana nu și-a plătit sau nu împrumutul. Scopul concursului era de a crea un model de tip „cutie neagră” pentru a prezice neplata creditului și apoi de a explica cutia neagră.

Am putea presupune că, pentru un concurs care le cere concurenților să creeze o cutie neagră și să o explice, problema ar avea de fapt nevoie de o cutie neagră. Dar nu a fost așa. În iulie 2018, când echipa Duke a primit datele, după ce ne-am jucat cu ele timp de doar o săptămână sau cam așa ceva, ne-am dat seama că putem analiza eficient datele FICO fără o cutie neagră. Indiferent dacă am folosit o rețea neuronală profundă sau tehnici statistice clasice pentru modele liniare, am constatat că a existat o diferență de acuratețe mai mică de 1% între metode, ceea ce se încadrează în marja de eroare cauzată de eșantionarea aleatorie a datelor. Chiar și atunci când am utilizat tehnici de învățare automată care au furnizat modele foarte ușor de interpretat, am reușit să obținem o acuratețe care se potrivea cu cea a celui mai bun model de cutie neagră. În acel moment, am rămas nedumerit cu privire la ce să facem. Ar trebui să respectăm regulile și să furnizăm judecătorilor o cutie neagră și să încercăm să o explicăm? Sau ar trebui să furnizăm un model transparent, interpretabil? Cu alte cuvinte, ce faci când constați că ai fost forțat să intri în dihotomia falsă dintre robot și chirurg?

Echipa noastră a decis că, pentru o problemă atât de importantă precum cea a scorului de credit, nu vom furniza o cutie neagră echipei de judecători doar în scopul de a o explica. În schimb, am creat un model interpretabil pe care am considerat că până și un client bancar cu puține cunoștințe de matematică ar putea să-l înțeleagă. Modelul putea fi descompus în diferite mini-modeluri, fiecare dintre ele putând fi înțeles de unul singur. Am creat, de asemenea, un instrument interactiv suplimentar de vizualizare online pentru creditori și persoane fizice. Jucându-ne cu factorii istoriei de credit de pe site-ul nostru le-ar permite oamenilor să înțeleagă ce factori sunt importanți pentru deciziile privind cererile de împrumut. Fără nicio cutie neagră. Știam că, probabil, nu vom câștiga competiția în acest fel, dar exista un punct mai important pe care trebuia să îl subliniem.

S-ar putea crede că există o mulțime de aplicații în care modelele interpretabile nu pot fi la fel de precise ca modelele cu cutie neagră. La urma urmei, dacă ați putea construi un model interpretabil precis, de ce ați folosi atunci o cutie neagră? Cu toate acestea, după cum a arătat Explainable Machine Learning Challenge, există de fapt o mulțime de aplicații în care oamenii nu încearcă să construiască un model interpretabil, deoarece ar putea crede că, pentru un set de date complexe, un model interpretabil nu ar putea fi la fel de precis ca o cutie neagră. Sau poate că doresc să păstreze modelul ca fiind proprietate privată. S-ar putea considera atunci că, dacă se pot construi modele de învățare profundă interpretabile pentru viziunea computerizată și analiza seriilor temporale (de exemplu, Chen et al., 2019; Y. Li et al., 2017; O. Li et al., 2018; Ming et al., 2019), atunci standardul ar trebui schimbat de la presupunerea că nu există modele interpretabile, la presupunerea că există, până la proba contrarie.

În plus, atunci când oamenii de știință înțeleg ce fac atunci când construiesc modele, pot produce sisteme de inteligență artificială care sunt mai capabile să servească mai bine oamenii care se bazează pe ele. În aceste cazuri, așa-numitul compromis acuratețe-interpretabilitate se dovedește a fi o eroare: modelele mai ușor de interpretat devin adesea mai precise (și nu mai puțin).

Falsa dihotomie dintre cutia neagră precisă și modelul transparent nu atât de precis a mers prea departe. Când sute de oameni de știință de top și directori de companii financiare sunt induși în eroare de această dihotomie, imaginați-vă cum ar putea fi păcălit și restul lumii. Implicațiile sunt profunde: afectează funcționarea sistemului nostru de justiție penală, a sistemelor noastre financiare, a sistemelor noastre de sănătate și a multor alte domenii. Haideți să insistăm să nu folosim modele de învățare automată de tip „cutie neagră” pentru decizii cu miză mare, cu excepția cazului în care nu poate fi construit niciun model interpretabil care să atingă același nivel de precizie. Este posibil ca un model interpretabil să poată fi construit întotdeauna – doar că noi nu am încercat. Poate că, dacă am face-o, nu am folosi niciodată cutii negre pentru aceste decizii cu miză mare.

Note

  1. Site-ul web al Explainable Machine Learning Challenge este aici: https://community.fico.com/s/explainable-machine-learning-challenge

  2. Acest articol se bazează pe experiența lui Rudin de a concura în cadrul Explainable Machine Learning Challenge 2018.

  3. Cititorii se pot juca cu intrarea noastră interactivă în competiție pentru această provocare aici: http://dukedatasciencefico.cs.duke.edu

  4. Întrarea noastră, într-adevăr, nu a câștigat concursul, după cum au apreciat organizatorii concursului. Judecătorilor nu li s-a permis deloc să interacționeze cu modelul nostru și cu instrumentul de vizualizare al acestuia; s-a decis, după termenul limită de depunere a candidaturii, că nu vor fi puse la dispoziția judecătorilor vizualizări interactive. Cu toate acestea, FICO a efectuat o evaluare separată a lucrărilor înscrise în competiție, iar lucrarea noastră a obținut un punctaj bun în urma evaluării, câștigând premiul FICO Recognition Award pentru competiție. Iată anunțul FICO privind câștigătorii:

    https://www.fico.com/en/newsroom/fico-announces-winners-of-inaugural-xml-challenge?utm_source=FICO-Community&utm_medium=xml-challenge-page

  5. Din câte știu autorii, am fost singura echipă care a furnizat un model interpretabil, mai degrabă decât o cutie neagră.

Angelino, E., Larus-Stone, N., Alabi, D., Seltzer, M., & Rudin, C. (2018). Învățarea unor liste de reguli optimizate în mod cert pentru date categorice. Journal of Machine Learning Research, 18(234), 1-78.

Caruana, R., Lou, Y., Gehrke, J., Koch, P., Sturm, M., & Elhadad, N. (2015). Modele inteligibile pentru asistența medicală: Predicția riscului de pneumonie și a readmisiei în spital la 30 de zile. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, Sydney, NSW, Australia, 721-1730.

Chen, C., Li, O., Barnett, A., Su, J., & Rudin, C. (2019). Acest lucru arată așa: Învățare profundă pentru recunoașterea imaginilor interpretabile. Vancouver, Canada, Advances in Neural Information Processing Systems.

Li, O., Liu, H., Chen, C., & Rudin, C. (2018). Învățare profundă pentru raționamentul bazat pe cazuri prin prototipuri: O rețea neuronală care își explică predicțiile. The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), New Orleans, Louisiana, 3530-3587.

Li, Y., Murias, M., Major, S., Dawson, G., Dzirasa, K., Carin, L., & Carlson, D. E. (2017). Țintirea sincroniei EEG/LFP cu rețele neuronale. Advances in Neural Information Processing Systems, Montreal, Canada, 4620-4630.

Ming, Y., Xu, P., Qu, H., & Ren, L. (2019). Învățarea secvențelor interpretabile și dirijabile prin intermediul prototipurilor. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Anchorage, Alaska, 903-913.

Razavian, N., Blecker, S., Schmidt, A. M., Smith-McLallen, A., Nigam, S., & Sontag, D. (2015). Predicția la nivel de populație a diabetului de tip 2 din datele privind cererile de rambursare și analiza factorilor de risc. Big Data, 3, 277-287.

Angwin, J. și Larson, J. și Mattu, S. și Kirchner, L. Machine Bias. ProPublica, https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing, accesat 2016-5-23.

Rudin, C. (2019). Nu mai explicați modelele de învățare automată cu cutie neagră pentru decizii cu miză mare și folosiți în schimb modele interpretabile. Nature Machine Intelligence, 1, 206-215.

Rudin, C., & Ustun, B. (2018). Sisteme de notare optimizate: Către încrederea în învățarea automată pentru sănătate și justiție penală. Interfaces, 48, 449-466.

Rudin, C., Wang, C., & Coker, B. (2019). Vârsta secretului și a nedreptății în predicția recidivismului. Harvard Data Science Review (în curs de publicare).

Tollenaar, N., & van der Heijden, P. G. M. (2013). Ce metodă prezice cel mai bine recidiva? O comparație a modelelor predictive statistice, de învățare automată și de minerit de date. Journal of the Royal Statistical Society, Series A: Statistics in Society, 176, 565-584.

Zeng, J., Ustun, B., & Rudin, C. (2016). Modele de clasificare interpretabile pentru predicția recidivei. Journal of the Royal Statistical Society, Series A: Statistics in Society, 180, 689-722.

Acest articol este © 2019 de Cynthia Rudin și Joanna Radin. Articolul este licențiat sub licența Creative Commons Attribution (CC BY 4.0) International license (https://creativecommons.org/licenses/by/4.0/legalcode), cu excepția cazurilor în care se indică altfel în ceea ce privește anumite materiale incluse în articol. Articolul trebuie să fie atribuit autorilor identificați mai sus.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.