Pourquoi utilisons-nous des modèles de boîte noire en IA quand nous n’en avons pas besoin ? Une leçon tirée d’un concours d’IA explicable

En 2018, un défi historique en intelligence artificielle (IA) a eu lieu, à savoir le défi Explainable Machine Learning. L’objectif du concours était de créer un modèle compliqué de boîte noire pour le jeu de données et d’expliquer comment il fonctionnait. Une équipe n’a pas suivi les règles. Au lieu d’envoyer une boîte noire, elle a créé un modèle entièrement interprétable. Cela conduit à la question de savoir si le monde réel de l’apprentissage automatique est similaire au défi de l’apprentissage automatique explicable, où les modèles en boîte noire sont utilisés même lorsqu’ils ne sont pas nécessaires. Nous discutons des processus de pensée de cette équipe pendant la compétition et de leurs implications, qui vont bien au-delà de la compétition elle-même.
Mots-clés : interprétabilité, explicabilité, apprentissage automatique, finance

En décembre 2018, des centaines d’informaticiens de haut niveau, d’ingénieurs financiers et de cadres se sont entassés dans une salle du Centre des congrès de Montréal lors de la conférence annuelle NeurIPS (Neural Information Processing Systems) pour entendre les résultats de l’Explainable Machine Learning Challenge, une compétition prestigieuse organisée en collaboration entre Google, la Fair Isaac Corporation (FICO) et des universitaires de Berkeley, Oxford, Imperial, UC Irvine et MIT. Il s’agissait du premier concours de science des données qui reflétait un besoin de donner un sens aux résultats calculés par les modèles de boîtes noires qui dominent la prise de décision basée sur l’apprentissage automatique.

Au cours des dernières années, les progrès de l’apprentissage profond pour la vision par ordinateur ont conduit à une croyance répandue selon laquelle les modèles les plus précis pour tout problème de science des données donné doivent être intrinsèquement ininterprétables et compliqués. Cette croyance découle de l’utilisation historique de l’apprentissage automatique dans la société : ses techniques modernes sont nées et ont été élevées pour des décisions à faible enjeu, comme la publicité en ligne et la recherche sur le Web, où les décisions individuelles n’affectent pas profondément les vies humaines.

Dans l’apprentissage automatique, ces modèles en boîte noire sont créés directement à partir des données par un algorithme, ce qui signifie que les humains, même ceux qui les conçoivent, ne peuvent pas comprendre comment les variables sont combinées pour faire des prédictions. Même si l’on dispose d’une liste des variables d’entrée, les modèles prédictifs de la boîte noire peuvent être des fonctions si compliquées des variables qu’aucun humain ne peut comprendre comment les variables sont conjointement liées les unes aux autres pour atteindre une prédiction finale.

Les modèles interprétables, qui fournissent une alternative techniquement équivalente, mais peut-être plus éthique, aux modèles de la boîte noire, sont différents – ils sont contraints de fournir une meilleure compréhension de la façon dont les prédictions sont faites. Dans certains cas, la manière dont les variables sont reliées entre elles pour former la prédiction finale peut être très claire. Il se peut que seules quelques variables soient combinées dans une courte déclaration logique, ou à l’aide d’un modèle linéaire, où les variables sont pondérées et additionnées. Parfois, les modèles interprétables sont composés de modèles plus simples assemblés (décomposables), ou d’autres contraintes sont imposées au modèle pour ajouter un nouveau niveau de compréhension. La plupart des modèles d’apprentissage automatique, cependant, ne sont pas conçus avec des contraintes d’interprétabilité ; ils sont juste conçus pour être des prédicteurs précis sur un ensemble de données statiques qui peuvent ou non représenter la façon dont le modèle serait utilisé dans la pratique.

La croyance que la précision doit être sacrifiée pour l’interprétabilité est inexacte. Elle a permis aux entreprises de commercialiser et de vendre des modèles propriétaires ou compliqués de type boîte noire pour des décisions à fort enjeu alors que des modèles interprétables très simples existent pour les mêmes tâches. Ainsi, elle permet aux créateurs de modèles de faire des bénéfices sans tenir compte des conséquences néfastes pour les personnes concernées. Peu de gens remettent en question ces modèles car leurs concepteurs prétendent que les modèles doivent être compliqués pour être précis. L’Explainable Machine Learning Challenge de 2018 sert d’étude de cas pour examiner les avantages de favoriser les modèles de la boîte noire par rapport aux modèles interprétables.

Avant l’annonce des gagnants du défi, le public – composé d’acteurs de premier plan dans les domaines de la finance, de la robotique et de l’apprentissage automatique – a été invité à se livrer à une expérience de pensée dans laquelle il était atteint d’un cancer et devait subir une intervention chirurgicale pour retirer une tumeur. Deux images ont été affichées sur l’écran. L’une représentait un chirurgien humain, qui pouvait tout expliquer sur l’opération, mais qui avait 15 % de chances de provoquer la mort pendant l’opération. L’autre image montrait un bras robotique capable de réaliser l’opération avec seulement 2 % de chances d’échouer. Le robot était censé simuler une approche de l’intelligence artificielle (IA) par la boîte noire. Dans ce scénario, une confiance totale dans le robot était requise ; aucune question ne pouvait être posée au robot, et aucune compréhension spécifique de la manière dont il prenait ses décisions ne pouvait être fournie. Le public a ensuite été invité à lever la main pour voter pour celui des deux qu’il préférait pour effectuer une opération chirurgicale vitale. Toutes les mains, sauf une, ont voté pour le robot.

Bien qu’il puisse sembler évident qu’une chance de mortalité de 2 % est meilleure qu’une chance de mortalité de 15 %, le fait de formuler les enjeux des systèmes d’IA de cette manière obscurcit une considération plus fondamentale et intéressante : Pourquoi le robot doit-il être une boîte noire ? Le robot perdrait-il sa capacité à effectuer une chirurgie précise s’il était doté d’une capacité à s’expliquer lui-même ? Une meilleure communication entre le robot et le patient, ou un médecin, ne permettrait-elle pas d’améliorer les soins aux patients plutôt que de les réduire ? Le patient n’aurait-il pas besoin de pouvoir expliquer au robot qu’il souffre d’un trouble de la coagulation sanguine avant l’opération ?

Cette possibilité, que le robot n’ait pas besoin d’être une boîte noire, n’a pas été présentée comme une option, et le public de l’atelier n’a eu que le choix entre la boîte noire précise et la boîte de verre inexacte. Le public n’a pas été informé de la manière dont la précision était mesurée pour les résultats chirurgicaux (sur quelle population les 2 % et 15 % étaient-ils mesurés ?), ni des défauts potentiels de l’ensemble de données utilisé pour entraîner le robot. En supposant que la précision doit se faire au détriment de l’interprétabilité (la capacité de comprendre pourquoi le chirurgien fait ce qu’il fait), cette expérience mentale n’a pas tenu compte du fait que l’interprétabilité pourrait ne pas nuire à la précision. L’interprétabilité pourrait même améliorer la précision, car elle permet de comprendre quand le modèle, dans ce cas un chirurgien robotisé, pourrait être incorrect.

S’entendre demander de choisir une machine précise ou un humain compréhensible est une fausse dichotomie. La comprendre comme telle nous aide à diagnostiquer les problèmes qui ont résulté de l’utilisation de modèles de boîtes noires pour des décisions à fort enjeu dans toute la société. Ces problèmes existent dans la finance, mais aussi dans les soins de santé, la justice pénale, et au-delà.

Donnons quelques preuves que cette hypothèse (que nous devons toujours sacrifier une certaine interprétabilité pour obtenir le modèle le plus précis) est fausse. Dans le système de justice pénale, il a été démontré à plusieurs reprises (Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018 ; Tollenaar & van der Heijden, 2013 ; Zeng, Ustun, & Rudin, 2016) que les modèles de boîte noire compliqués pour prédire une future arrestation ne sont pas plus précis que des modèles prédictifs très simples basés sur l’âge et les antécédents criminels. Par exemple, un modèle d’apprentissage automatique interprétable pour prédire une nouvelle arrestation créé dans le travail d’Angelino et al. (2018), ne considère que quelques règles sur l’âge et les antécédents criminels d’une personne. Le modèle d’apprentissage automatique complet est le suivant : si la personne a soit >3 crimes antérieurs, soit est âgée de 18 à 20 ans et de sexe masculin, soit est âgée de 21 à 23 ans et a deux ou trois crimes antérieurs, on prédit qu’elle sera réarrêtée dans les deux ans suivant son évaluation, et sinon non. Bien que nous ne préconisions pas nécessairement d’utiliser ce modèle particulier dans des contextes de justice pénale, cet ensemble de règles est aussi précis que le modèle de boîte noire largement utilisé (et propriétaire) appelé COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), tel qu’utilisé dans le comté de Broward, en Floride (Angelino et al., 2018).

Le modèle simple ci-dessus est également aussi précis que de nombreuses autres méthodes d’apprentissage automatique de pointe (Angelino et al., 2018). Des résultats similaires ont été constatés entre les méthodes d’apprentissage automatique appliquées à de nombreux types de problèmes de prédiction de réarrestation sur d’autres ensembles de données : les modèles interprétables (qui étaient de très petits modèles linéaires ou des modèles logiques dans ces études) ont donné d’aussi bons résultats que les modèles d’apprentissage automatique plus compliqués (boîte noire) (Zeng et al., 2016). Il ne semble pas y avoir de preuve d’un avantage à utiliser des modèles de boîte noire pour la prédiction du risque criminel. En fait, il peut y avoir des inconvénients dans la mesure où ces boîtes noires sont plus difficiles à dépanner, à faire confiance et à utiliser.

Il ne semble pas non plus y avoir d’avantage en termes de précision pour les modèles de boîtes noires dans plusieurs domaines de la santé et à travers de nombreuses autres applications d’apprentissage automatique à fort enjeu où des décisions qui changent la vie sont prises (par ex, Caruana et al., 2015 ; Razavian et al., 2015 ; Rudin & Ustun, 2018, qui montrent tous des modèles avec des contraintes d’interprétabilité aussi performants que les modèles sans contraintes). Au contraire, les modèles de boîtes noires peuvent masquer une myriade d’erreurs graves possibles (par exemple, voir Rudin, 2019). Même dans le domaine de la vision par ordinateur, où les réseaux neuronaux profonds (le type de modèle de boîte noire le plus difficile à expliquer) constituent l’état de l’art, nous et d’autres scientifiques (par exemple, Chen et al., 2019 ; Y. Li et al., 2017 ; L. Li, Liu, Chen, & Rudin, 2018 ; Ming, Xu, Qu, & Ren, 2019) avons trouvé des moyens d’ajouter des contraintes d’interprétabilité aux modèles d’apprentissage profond, conduisant à des calculs plus transparents. Ces contraintes d’interprétabilité ne se sont pas faites au détriment de la précision, même pour les réseaux neuronaux profonds pour la vision par ordinateur.

Faire confiance à un modèle de boîte noire signifie que vous faites confiance non seulement aux équations du modèle, mais aussi à toute la base de données à partir de laquelle il a été construit. Par exemple, dans le scénario du robot et du chirurgien, sans savoir comment les 2% et 15% ont été estimés, nous devrions remettre en question la pertinence de ces chiffres pour toute sous-population particulière de patients médicaux. Chaque ensemble de données raisonnablement complexe que nous avons vu contient des imperfections. Celles-ci peuvent aller d’énormes quantités de données manquantes (qui ne sont pas manquantes au hasard), ou de facteurs de confusion non mesurés, à des erreurs systématiques dans l’ensemble de données (par ex,

Un de ces problèmes courants avec les modèles de boîte noire dans les contextes médicaux est la fuite de données, où certaines informations sur l’étiquette y se faufilent dans les variables x d’une manière que vous ne pourriez pas soupçonner en regardant les titres et les descriptions des variables : parfois vous pensez que vous prédisez quelque chose dans le futur mais vous ne faites que détecter quelque chose qui s’est produit dans le passé. En prédisant les résultats médicaux, la machine peut capter des informations dans les notes des médecins qui révèlent le résultat des patients avant qu’il ne soit officiellement enregistré et donc les revendiquer à tort comme des prédictions réussies.

En essayant de tenir compte de l’inquiétude généralisée concernant l’opacité des modèles de boîtes noires, certains scientifiques ont essayé de proposer des explications de ces modèles, des hypothèses sur les raisons pour lesquelles ils arrivent aux décisions qu’ils prennent. Ces explications tentent généralement soit d’imiter les prédictions de la boîte noire en utilisant un modèle entièrement différent (peut-être avec des variables importantes différentes, masquant ce que la boîte noire pourrait réellement faire), soit de fournir une autre statistique qui donne des informations incomplètes sur le calcul de la boîte noire. Ces explications sont superficielles, voire creuses, puisqu’elles étendent l’autorité de la boîte noire plutôt que de reconnaître qu’elle n’est pas nécessaire. Et parfois, ces explications sont erronées.

Par exemple, lorsque les journalistes de ProPublica ont essayé d’expliquer ce que contenait le modèle propriétaire COMPAS pour la prédiction de la récidive (Angwin et al., 2016), ils semblent avoir supposé à tort que si l’on pouvait créer un modèle linéaire qui se rapproche de COMPAS et dépend de la race, de l’âge et des antécédents criminels, que COMPAS lui-même devait dépendre de la race. Cependant, lorsqu’on approche le COMPAS à l’aide d’un modèle non linéaire, la dépendance explicite de la race disparaît (Rudin, Wang, & Coker, 2019), laissant la dépendance de la race uniquement à travers l’âge et les antécédents criminels. Ceci est un exemple de la façon dont une explication incorrecte d’une boîte noire peut échapper à tout contrôle. Peut-être que si le système judiciaire avait utilisé uniquement des modèles interprétables (dont nous et d’autres avons démontré qu’ils étaient tout aussi précis), les journalistes de ProPublica auraient pu écrire une histoire différente. Peut-être, par exemple, pourraient-ils écrire sur la façon dont les erreurs typographiques dans ces scores se produisent fréquemment, sans aucun moyen évident de les dépanner, ce qui conduit à des décisions incohérentes qui changent la vie du système judiciaire (voir, par exemple, Rudin et al., 2019).

Mais de retour à la conférence NeurIPS 2018, dans la salle pleine d’experts qui venaient de choisir le robot plutôt que le chirurgien, l’annonceur a procédé à la description de la compétition. Le FICO avait fourni un ensemble de données sur les lignes de crédit hypothécaire (HELOC), qui contient les données de milliers d’individus anonymes, y compris les aspects de leur historique de crédit et si l’individu a fait défaut sur le prêt ou non. L’objectif du concours était de créer un modèle de boîte noire pour prédire le défaut de paiement d’un prêt, puis d’expliquer la boîte noire.

On pourrait supposer que pour un concours qui exige des concurrents de créer une boîte noire et de l’expliquer, le problème nécessiterait effectivement une boîte noire. Mais ce n’est pas le cas. En juillet 2018, lorsque l’équipe de Duke a reçu les données, après avoir joué avec elles pendant seulement une semaine environ, nous avons réalisé que nous pouvions analyser efficacement les données FICO sans boîte noire. Peu importe que nous utilisions un réseau neuronal profond ou des techniques statistiques classiques pour les modèles linéaires, nous avons constaté qu’il y avait moins de 1 % de différence de précision entre les méthodes, ce qui correspond à la marge d’erreur causée par l’échantillonnage aléatoire des données. Même lorsque nous avons utilisé des techniques d’apprentissage automatique qui fournissaient des modèles très interprétables, nous avons pu obtenir une précision égale à celle du meilleur modèle de la boîte noire. À ce stade, nous étions perplexes quant à la marche à suivre. Devions-nous respecter les règles, fournir une boîte noire aux juges et tenter de l’expliquer ? Ou devions-nous fournir un modèle transparent et interprétable ? En d’autres termes, que faites-vous lorsque vous constatez que vous avez été contraint à la fausse dichotomie entre le robot et le chirurgien ?

Notre équipe a décidé que pour un problème aussi important que l’évaluation du crédit, nous ne fournirions pas une boîte noire à l’équipe de juges dans le seul but de l’expliquer. Au lieu de cela, nous avons créé un modèle interprétable que, selon nous, même un client bancaire ayant peu de connaissances en mathématiques serait en mesure de comprendre. Le modèle était décomposable en différents mini-modèles, chacun pouvant être compris séparément. Nous avons également créé un outil de visualisation en ligne interactif supplémentaire pour les prêteurs et les particuliers. En jouant avec les facteurs relatifs aux antécédents de crédit sur notre site Web, les gens pouvaient comprendre quels facteurs étaient importants pour les décisions relatives aux demandes de prêt. Pas de boîte noire du tout. Nous savions que nous ne gagnerions probablement pas le concours de cette façon, mais il y avait un point plus important que nous devions faire.

On pourrait penser qu’il y a beaucoup d’applications où les modèles interprétables ne peuvent absolument pas être aussi précis que les modèles de la boîte noire. Après tout, si vous pouvez construire un modèle interprétable précis, pourquoi utiliseriez-vous alors une boîte noire ? Cependant, comme l’a révélé l’Explainable Machine Learning Challenge, il existe en fait de nombreuses applications pour lesquelles les gens n’essaient pas de construire un modèle interprétable, car ils peuvent penser que pour un ensemble de données complexe, un modèle interprétable ne peut pas être aussi précis qu’une boîte noire. Ou peut-être veulent-ils préserver le modèle en tant que propriété. On pourrait alors considérer que si des modèles d’apprentissage profond interprétables peuvent être construits pour la vision par ordinateur et l’analyse de séries chronologiques (par exemple, Chen et al., 2019 ; Y. Li et al., 2017 ; O. Li et al., 2018 ; Ming et al, 2019), alors la norme devrait passer de l’hypothèse selon laquelle les modèles interprétables n’existent pas à l’hypothèse selon laquelle ils existent, jusqu’à preuve du contraire.

En outre, lorsque les scientifiques comprennent ce qu’ils font lorsqu’ils construisent des modèles, ils peuvent produire des systèmes d’IA qui sont mieux à même de servir les humains qui comptent sur eux. Dans ces cas, le soi-disant compromis précision-interprétabilité se révèle être une erreur : les modèles plus interprétables deviennent souvent plus (et non moins) précis.

La fausse dichotomie entre la boîte noire précise et le modèle transparent pas si précis est allée trop loin. Lorsque des centaines de scientifiques de premier plan et de dirigeants de sociétés financières sont induits en erreur par cette dichotomie, imaginez comment le reste du monde pourrait être trompé lui aussi. Les implications sont profondes : elles affectent le fonctionnement de notre système de justice pénale, de nos systèmes financiers, de nos systèmes de santé et de bien d’autres domaines. Insistons pour que nous n’utilisions pas de modèles d’apprentissage automatique de type « boîte noire » pour des décisions à fort enjeu, à moins qu’il ne soit possible de construire un modèle interprétable qui atteigne le même niveau de précision. Il est possible qu’un modèle interprétable puisse toujours être construit – nous n’avons simplement pas essayé. Peut-être que si nous le faisions, nous n’utiliserions jamais de boîtes noires pour ces décisions à enjeux élevés.

Notes

  1. Le site web du défi de l’apprentissage des machines explicables est ici : https://community.fico.com/s/explainable-machine-learning-challenge

  2. Cet article est basé sur l’expérience de Rudin lors de la compétition du défi 2018 Explainable Machine Learning.

  3. Les lecteurs peuvent jouer avec notre entrée interactive pour le défi ici : http://dukedatasciencefico.cs.duke.edu

  4. Notre participation n’a en effet pas remporté le concours tel que jugé par les organisateurs du concours. Les juges n’ont pas du tout été autorisés à interagir avec notre modèle et son outil de visualisation ; il a été décidé après la date limite de soumission qu’aucune visualisation interactive ne serait fournie aux juges. Cependant, FICO a effectué sa propre évaluation séparée des contributions au concours, et notre contribution a obtenu un bon score dans leur évaluation, ce qui nous a valu le FICO Recognition Award pour le concours. Voici l’annonce des gagnants par FICO:

    https://www.fico.com/en/newsroom/fico-announces-winners-of-inaugural-xml-challenge?utm_source=FICO-Community&utm_medium=xml-challenge-page

  5. A la connaissance des auteurs, nous étions la seule équipe à fournir un modèle interprétable plutôt qu’une boîte noire.

Angelino, E., Larus-Stone, N., Alabi, D., Seltzer, M., &Rudin, C. (2018). Apprentissage de listes de règles certifiablement optimales pour les données catégorielles. Journal of Machine Learning Research, 18(234), 1-78.

Caruana, R., Lou, Y., Gehrke, J., Koch, P., Sturm, M., & Elhadad, N. (2015). Des modèles intelligibles pour les soins de santé : Prédire le risque de pneumonie et la réadmission à l’hôpital à 30 jours. Actes de la 21e conférence internationale ACM SIGKDD sur la découverte de connaissances et la fouille de données, ACM, Sydney, NSW, Australie, 721-1730.

Chen, C., Li, O., Barnett, A., Su, J., & Rudin, C. (2019). Cela ressemble à cela : Apprentissage profond pour la reconnaissance d’images interprétables. Vancouver, Canada, Advances in Neural Information Processing Systems.

Li, O., Liu, H., Chen, C., & Rudin, C. (2018). Apprentissage profond pour le raisonnement à base de cas à travers des prototypes : Un réseau de neurones qui explique ses prédictions. La trente-deuxième conférence AAAI sur l’intelligence artificielle (AAAI-18), Nouvelle-Orléans, Louisiane, 3530-3587.

Li, Y., Murias, M., Major, S., Dawson, G., Dzirasa, K., Carin, L., & Carlson, D. E. (2017). Cibler la synchronisation EEG/LFP avec des réseaux de neurones. Advances in Neural Information Processing Systems, Montréal, Canada, 4620-4630.

Ming, Y., Xu, P., Qu, H., & Ren, L. (2019). Apprentissage de séquences interprétables et pilotables via des prototypes. Actes de la 25e conférence internationale ACM SIGKDD sur la découverte de connaissances & Data Mining, Anchorage, Alaska, 903-913.

Razavian, N., Blecker, S., Schmidt, A. M., Smith-McLallen, A., Nigam, S., & Sontag, D. (2015). Prédiction du diabète de type 2 au niveau de la population à partir des données de réclamation et de l’analyse des facteurs de risque. Big Data, 3, 277-287.

Angwin, J. et Larson, J. et Mattu, S. et Kirchner, L. Machine Bias. ProPublica, https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing, consulté le 2016-5-23.

Rudin, C. (2019). Arrêtez d’expliquer les modèles d’apprentissage automatique de la boîte noire pour les décisions à fort enjeu et utilisez plutôt des modèles interprétables. Nature Machine Intelligence, 1, 206-215.

Rudin, C., & Ustun, B. (2018). Systèmes de notation optimisés : Vers la confiance dans l’apprentissage automatique pour les soins de santé et la justice pénale. Interfaces, 48, 449-466.

Rudin, C., Wang, C., & Coker, B. (2019). L’âge du secret et de l’injustice dans la prédiction de la récidive. Harvard Data Science Review (sous presse).

Tollenaar, N., & van der Heijden, P. G. M. (2013). Quelle méthode prédit le mieux la récidive ? Une comparaison des modèles prédictifs statistiques, d’apprentissage automatique et d’exploration de données. Journal of the Royal Statistical Society, Series A : Statistics in Society, 176, 565-584.

Zeng, J., Ustun, B., & Rudin, C. (2016). Modèles de classification interprétables pour la prédiction de la récidive. Journal de la Royal Statistical Society, Série A : Statistiques dans la société, 180, 689-722.

Cet article est © 2019 par Cynthia Rudin et Joanna Radin. L’article est sous licence Creative Commons Attribution (CC BY 4.0) International (https://creativecommons.org/licenses/by/4.0/legalcode), sauf indication contraire concernant le matériel particulier inclus dans l’article. L’article doit être attribué aux auteurs identifiés ci-dessus.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.