¿Por qué estamos usando modelos de caja negra en la IA cuando no lo necesitamos? Una lección de una competición de IA explicable

En 2018 tuvo lugar un reto histórico en inteligencia artificial (IA), el Explainable Machine Learning Challenge. El objetivo de la competición era crear un complicado modelo de caja negra para el conjunto de datos y explicar cómo funcionaba. Un equipo no siguió las reglas. En lugar de enviar una caja negra, crearon un modelo totalmente interpretable. Esto nos lleva a preguntarnos si el mundo real del aprendizaje automático es similar al Desafío de Aprendizaje Automático Explicable, donde se utilizan modelos de caja negra incluso cuando no son necesarios. Discutimos los procesos de pensamiento de este equipo durante la competición y sus implicaciones, que van mucho más allá de la propia competición.
Palabras clave: interpretabilidad, explicabilidad, aprendizaje automático, finanzas

En diciembre de 2018, cientos de científicos informáticos de alto nivel, ingenieros financieros y ejecutivos se apiñaron en una sala dentro del Centro de Convenciones de Montreal en la conferencia anual de Sistemas de Procesamiento de Información Neuronal (NeurIPS) para escuchar los resultados del Desafío de Aprendizaje Automático Explicable, una prestigiosa competición organizada en colaboración entre Google, Fair Isaac Corporation (FICO) y académicos de Berkeley, Oxford, Imperial, UC Irvine y MIT. Esta fue la primera competición de ciencia de datos que reflejó la necesidad de dar sentido a los resultados calculados por los modelos de caja negra que dominan la toma de decisiones basada en el aprendizaje automático.

En los últimos años, los avances en el aprendizaje profundo para la visión por ordenador han llevado a la creencia generalizada de que los modelos más precisos para cualquier problema de ciencia de datos deben ser inherentemente ininterpretables y complicados. Esta creencia proviene del uso histórico del aprendizaje automático en la sociedad: sus técnicas modernas nacieron y se criaron para decisiones de bajo riesgo, como la publicidad en línea y la búsqueda en la web, donde las decisiones individuales no afectan profundamente a las vidas humanas.

En el aprendizaje automático, estos modelos de caja negra son creados directamente a partir de los datos por un algoritmo, lo que significa que los humanos, incluso los que los diseñan, no pueden entender cómo se combinan las variables para hacer predicciones. Incluso si se tiene una lista de las variables de entrada, los modelos de predicción de caja negra pueden ser funciones tan complicadas de las variables que ningún humano puede entender cómo se relacionan las variables entre sí para llegar a una predicción final.

Los modelos interpretables, que proporcionan una alternativa técnicamente equivalente, pero posiblemente más ética, a los modelos de caja negra, son diferentes: están restringidos para proporcionar una mejor comprensión de cómo se hacen las predicciones. En algunos casos, puede quedar muy claro cómo se relacionan conjuntamente las variables para formar la predicción final, donde quizás sólo se combinan unas pocas variables en un breve enunciado lógico, o utilizando un modelo lineal, donde las variables se ponderan y se suman. A veces, los modelos interpretables se componen de modelos más sencillos unidos (descomponibles), o se ponen otras restricciones en el modelo para añadir un nuevo nivel de conocimiento. Sin embargo, la mayoría de los modelos de aprendizaje automático no se diseñan con restricciones de interpretabilidad; sólo se diseñan para ser predictores precisos en un conjunto de datos estático que puede o no representar cómo se utilizaría el modelo en la práctica.

La creencia de que la precisión debe sacrificarse por la interpretabilidad es inexacta. Ha permitido que las empresas comercialicen y vendan modelos propietarios o complicados de caja negra para decisiones de alto riesgo cuando existen modelos interpretables muy sencillos para las mismas tareas. De este modo, permite a los creadores del modelo obtener beneficios sin tener en cuenta las consecuencias perjudiciales para las personas afectadas. Pocos cuestionan estos modelos porque sus diseñadores afirman que los modelos deben ser complicados para ser precisos. El Desafío de Aprendizaje Automático Explicable de 2018 sirve como estudio de caso para considerar las ventajas de favorecer los modelos de caja negra en lugar de los interpretables.

Antes de que se anunciaran los ganadores del desafío, se pidió a la audiencia -constituida por actores poderosos en los ámbitos de las finanzas, la robótica y el aprendizaje automático- que participaran en un experimento mental en el que tenían cáncer y necesitaban una cirugía para extirpar un tumor. Se mostraron dos imágenes en la pantalla. Una imagen mostraba a un cirujano humano, que podía explicar cualquier cosa sobre la cirugía, pero tenía un 15% de posibilidades de causar la muerte durante la operación. La otra imagen mostraba un brazo robótico que podía realizar la cirugía con sólo un 2% de probabilidades de fracaso. El robot pretendía simular un enfoque de caja negra de la inteligencia artificial (IA). En este escenario, se requería una confianza total en el robot; no se podían hacer preguntas al robot, y no se proporcionaría ninguna comprensión específica de cómo llegaba a sus decisiones. A continuación, se pidió al público que levantara la mano para votar por cuál de los dos preferiría que realizara una operación para salvar la vida. Todas las manos, excepto una, votaron por el robot.

Si bien puede parecer obvio que una probabilidad de mortalidad del 2% es mejor que una probabilidad de mortalidad del 15%, enmarcar las apuestas de los sistemas de IA de esta manera oscurece una consideración más fundamental e interesante: ¿Por qué el robot debe ser una caja negra? ¿Perdería el robot su capacidad de realizar una cirugía precisa si se le dotara de la capacidad de explicarse a sí mismo? ¿No es cierto que una mejor comunicación entre el robot y el paciente, o un médico, mejoraría la atención al paciente en lugar de disminuirla? ¿No necesitaría el paciente ser capaz de explicar al robot que tiene un trastorno de la coagulación de la sangre antes de la cirugía?

Esta posibilidad, que el robot no necesita ser una caja negra, no se presentó como una opción, y al público del taller sólo se le dio la opción entre la caja negra precisa y la caja de cristal inexacta. No se explicó a los asistentes cómo se medía la precisión de los resultados quirúrgicos (¿en qué población se midió el 2% y el 15%?) ni se les informó de los posibles fallos del conjunto de datos que se utilizó para entrenar al robot. Al suponer que la precisión debe ir en detrimento de la interpretabilidad (la capacidad de entender por qué el cirujano hace lo que hace), este experimento mental no tuvo en cuenta que la interpretabilidad podría no perjudicar la precisión. La interpretabilidad podría incluso mejorar la precisión, ya que permite comprender cuándo el modelo, en este caso un cirujano robótico, podría ser incorrecto.

El hecho de que se nos pida que elijamos una máquina precisa o un humano comprensible es una falsa dicotomía. Entenderla como tal nos ayuda a diagnosticar los problemas que ha generado el uso de modelos de caja negra para las decisiones de alto riesgo en toda la sociedad. Estos problemas existen en las finanzas, pero también en la sanidad, la justicia penal y otros ámbitos.

Demos algunas pruebas de que esta suposición (que siempre debemos sacrificar algo de interpretabilidad para conseguir el modelo más preciso) es errónea. En el sistema de justicia penal, se ha demostrado repetidamente (Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018; Tollenaar & van der Heijden, 2013; Zeng, Ustun, & Rudin, 2016) que los complicados modelos de caja negra para predecir futuros arrestos no son más precisos que los modelos predictivos muy simples basados en la edad y los antecedentes penales. Por ejemplo, un modelo de aprendizaje automático interpretable para predecir el rearresto creado en el trabajo de Angelino et al. (2018), considera solo unas pocas reglas sobre la edad y los antecedentes penales de alguien. El modelo de aprendizaje automático completo es el siguiente: si la persona tiene >3 delitos anteriores, o tiene entre 18 y 20 años y es hombre, o tiene entre 21 y 23 años y tiene dos o tres delitos anteriores, se predice que volverá a ser arrestada dentro de los dos años siguientes a su evaluación, y de lo contrario no. Aunque no abogamos necesariamente por utilizar este modelo concreto en entornos de justicia penal, este conjunto de reglas es tan preciso como el modelo de caja negra ampliamente utilizado (y patentado) llamado COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), tal y como se utiliza en el condado de Broward, Florida (Angelino et al., 2018).

El modelo simple anterior también es tan preciso como muchos otros métodos de aprendizaje automático de última generación (Angelino et al., 2018). Se encontraron resultados similares a través de los métodos de aprendizaje automático aplicados a muchos tipos diferentes de problemas de predicción de rearrestos en otros conjuntos de datos: los modelos interpretables (que eran modelos lineales muy pequeños o modelos lógicos en estos estudios) se desempeñaron tan bien como los modelos de aprendizaje automático más complicados (caja negra) (Zeng et al., 2016). No parece haber pruebas de que el uso de modelos de caja negra sea beneficioso para la predicción del riesgo penal. De hecho, puede haber desventajas en el sentido de que estas cajas negras son más difíciles de solucionar, confiar y utilizar.

Tampoco parece haber un beneficio en la precisión de los modelos de caja negra en varios dominios de la atención sanitaria y en muchas otras aplicaciones de aprendizaje automático de alto riesgo en las que se toman decisiones que alteran la vida (por ejemplo, Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018, quienes muestran modelos con restricciones de interpretabilidad que se desempeñan tan bien como los modelos sin restricciones). Por el contrario, los modelos de caja negra pueden enmascarar una miríada de posibles errores graves (por ejemplo, véase Rudin, 2019). Incluso en la visión por ordenador, donde las redes neuronales profundas (el tipo de modelo de caja negra más difícil de explicar) son el estado de la técnica, nosotros y otros científicos (por ejemplo, Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019) hemos encontrado formas de añadir restricciones de interpretabilidad a los modelos de aprendizaje profundo, lo que lleva a cálculos más transparentes. Estas restricciones de interpretabilidad no han llegado a expensas de la precisión, incluso para las redes neuronales profundas para la visión por ordenador.

Confiar en un modelo de caja negra significa que se confía no solo en las ecuaciones del modelo, sino también en toda la base de datos que se construyó. Por ejemplo, en el escenario del robot y el cirujano, sin saber cómo se estimaron el 2% y el 15%, deberíamos cuestionar la relevancia de estos números para cualquier subpoblación particular de pacientes médicos. Todos los conjuntos de datos razonablemente complejos que hemos visto contienen imperfecciones. Éstas pueden ir desde enormes cantidades de datos que faltan (que no faltan al azar), o factores de confusión no medidos, hasta errores sistemáticos en el conjunto de datos (p. ej, codificación incorrecta de los tratamientos farmacológicos), hasta problemas de recopilación de datos que hacen que la distribución de los datos sea diferente de lo que pensábamos en un principio.

Uno de estos problemas comunes con los modelos de caja negra en entornos médicos es la fuga de datos, en la que alguna información sobre la etiqueta y se cuela en las variables x de una manera que no se podría sospechar mirando los títulos y las descripciones de las variables: a veces se piensa que se está prediciendo algo en el futuro pero sólo se está detectando algo que ocurrió en el pasado. Al predecir los resultados médicos, la máquina podría recoger información de las notas de los médicos que revelan el resultado de los pacientes antes de que se registre oficialmente y, por lo tanto, reclamarlos erróneamente como predicciones exitosas.

Al tratar de tener en cuenta la preocupación generalizada sobre la opacidad de los modelos de caja negra, algunos científicos han tratado de ofrecer explicaciones sobre ellos, hipótesis sobre por qué llegan a las decisiones que toman. Estas explicaciones suelen tratar de imitar las predicciones de la caja negra utilizando un modelo completamente diferente (quizás con variables importantes distintas, enmascarando lo que la caja negra podría estar haciendo en realidad), o proporcionan otra estadística que arroja información incompleta sobre el cálculo de la caja negra. Estas explicaciones son superficiales, o incluso huecas, ya que amplían la autoridad de la caja negra en lugar de reconocer que no es necesaria. Y a veces, estas explicaciones son erróneas.

Por ejemplo, cuando los periodistas de ProPublica trataron de explicar lo que había en el modelo propietario COMPAS para la predicción de la reincidencia (Angwin et al., 2016), parecen haber asumido erróneamente que si uno puede crear un modelo lineal que se aproxima al COMPAS y depende de la raza, la edad y los antecedentes penales, que el propio COMPAS debe depender de la raza. Sin embargo, cuando uno aproxima el COMPAS utilizando un modelo no lineal, la dependencia explícita de la raza desaparece (Rudin, Wang, & Coker, 2019), dejando la dependencia de la raza sólo a través de la edad y los antecedentes penales. Este es un ejemplo de cómo una explicación incorrecta de una caja negra puede salirse de control. Tal vez si el sistema de justicia hubiera utilizado solo modelos interpretables (que nosotros y otros hemos demostrado que son igualmente precisos), los periodistas de ProPublica habrían podido escribir una historia diferente. Tal vez, por ejemplo, podrían escribir sobre cómo los errores tipográficos en estas puntuaciones ocurren con frecuencia, sin una forma obvia de solucionarlos, lo que lleva a la toma de decisiones inconsistentes que alteran la vida en el sistema de justicia (véase, por ejemplo, Rudin et al., 2019).

Pero de vuelta en la conferencia NeurIPS de 2018, en la sala llena de expertos que acababan de elegir al robot sobre el cirujano, el locutor procedió a describir la competencia. La FICO había proporcionado un conjunto de datos de líneas de crédito con garantía hipotecaria (HELOC, por sus siglas en inglés), que contiene datos de miles de individuos anónimos, incluyendo aspectos de su historial de crédito y si el individuo incumplió o no el préstamo. El objetivo del concurso era crear un modelo de caja negra para predecir el impago de los préstamos y, a continuación, explicar la caja negra.

Se podría suponer que, para un concurso que requiere que los concursantes creen una caja negra y la expliquen, el problema necesitaría realmente una caja negra. Pero no fue así. Ya en julio de 2018, cuando el equipo de Duke recibió los datos, después de jugar con ellos durante apenas una semana, nos dimos cuenta de que podíamos analizar eficazmente los datos de FICO sin una caja negra. No importaba si utilizábamos una red neuronal profunda o técnicas estadísticas clásicas para modelos lineales, descubrimos que había menos de un 1% de diferencia en la precisión entre los métodos, lo que está dentro del margen de error causado por el muestreo aleatorio de los datos. Incluso cuando utilizamos técnicas de aprendizaje automático que proporcionaban modelos muy interpretables, fuimos capaces de lograr una precisión que igualaba la del mejor modelo de caja negra. Llegados a este punto, nos quedamos perplejos sobre qué hacer. ¿Debíamos seguir las reglas y proporcionar una caja negra a los jueces e intentar explicarla? ¿O debíamos ofrecer un modelo transparente e interpretable? En otras palabras, ¿qué hacer cuando uno se ve obligado a entrar en la falsa dicotomía del robot y el cirujano?

Nuestro equipo decidió que, para un problema tan importante como el de la puntuación de créditos, no proporcionaríamos una caja negra al equipo de jueces con el mero propósito de explicarla. En su lugar, creamos un modelo interpretable que pensamos que incluso un cliente de banca con poca formación matemática sería capaz de entender. El modelo era descomponible en diferentes minimodelos, donde cada uno podía entenderse por sí mismo. También creamos una herramienta adicional de visualización interactiva en línea para prestamistas y particulares. Jugar con los factores del historial crediticio en nuestra página web permitiría a la gente entender qué factores eran importantes para las decisiones de solicitud de préstamos. Nada de cajas negras. Sabíamos que probablemente no ganaríamos el concurso de esa manera, pero había un punto más importante que necesitábamos hacer.

Uno podría pensar que hay un montón de aplicaciones en las que los modelos interpretables no pueden ser tan precisos como los modelos de caja negra. Después de todo, si se puede construir un modelo interpretable preciso, ¿por qué utilizar una caja negra? Sin embargo, como reveló el Desafío de Aprendizaje Automático Explicable, en realidad hay muchas aplicaciones en las que la gente no intenta construir un modelo interpretable, porque podrían creer que para un conjunto de datos complejos, un modelo interpretable no podría ser tan preciso como una caja negra. O tal vez quieran preservar el modelo como algo propio. Se podría considerar entonces que si se pueden construir modelos interpretables de aprendizaje profundo para la visión por ordenador y el análisis de series temporales (por ejemplo, Chen et al., 2019; Y. Li et al., 2017; O. Li et al., 2018; Ming et al, 2019), entonces la norma debería cambiar de la suposición de que los modelos interpretables no existen, a la suposición de que sí existen, hasta que se demuestre lo contrario.

Además, cuando los científicos entienden lo que están haciendo cuando construyen modelos, pueden producir sistemas de IA que son más capaces de servir a los humanos que confían en ellos. En estos casos, la llamada compensación entre precisión e interpretabilidad se revela como una falacia: los modelos más interpretables suelen ser más (y no menos) precisos.

La falsa dicotomía entre la caja negra precisa y el modelo transparente no tan preciso ha llegado demasiado lejos. Cuando cientos de científicos de primera línea y ejecutivos de empresas financieras se dejan engañar por esta dicotomía, imagínese cómo se puede engañar también al resto del mundo. Las implicaciones son profundas: afecta al funcionamiento de nuestro sistema de justicia penal, a nuestros sistemas financieros, a nuestros sistemas sanitarios y a muchos otros ámbitos. Insistamos en que no utilicemos modelos de aprendizaje automático de caja negra para decisiones de alto riesgo, a menos que no se pueda construir un modelo interpretable que alcance el mismo nivel de precisión. Es posible que siempre se pueda construir un modelo interpretable, pero no lo hemos intentado. Quizás si lo hiciéramos, nunca utilizaríamos cajas negras para estas decisiones de alto riesgo.

Notas

  1. El sitio web de Explainable Machine Learning Challenge está aquí: https://community.fico.com/s/explainable-machine-learning-challenge

  2. Este artículo se basa en la experiencia de Rudin compitiendo en el Desafío de Aprendizaje Automático Explicable 2018.

  3. Los lectores pueden jugar con nuestra entrada interactiva de la competencia para el desafío aquí: http://dukedatasciencefico.cs.duke.edu

  4. Nuestra propuesta, efectivamente, no ganó el concurso a juicio de los organizadores del mismo. A los jueces no se les permitió interactuar con nuestro modelo y su herramienta de visualización en absoluto; se decidió después de la fecha límite de presentación que no se proporcionarían visualizaciones interactivas a los jueces. Sin embargo, FICO llevó a cabo su propia evaluación de las propuestas del concurso, y nuestra propuesta obtuvo una buena puntuación en su evaluación, ganando el Premio de Reconocimiento FICO para el concurso. Aquí está el anuncio de FICO sobre los ganadores:

    https://www.fico.com/en/newsroom/fico-announces-winners-of-inaugural-xml-challenge?utm_source=FICO-Community&utm_medium=xml-challenge-page

  5. Por lo que saben los autores, fuimos el único equipo que proporcionó un modelo interpretable en lugar de una caja negra.

Angelino, E., Larus-Stone, N., Alabi, D., Seltzer, M., & Rudin, C. (2018). Aprendizaje de listas de reglas certificablemente óptimas para datos categóricos. Journal of Machine Learning Research, 18(234), 1-78.

Caruana, R., Lou, Y., Gehrke, J., Koch, P., Sturm, M., & Elhadad, N. (2015). Modelos inteligibles para la atención sanitaria: Predicción del riesgo de neumonía y del reingreso hospitalario a los 30 días. Actas de la 21ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos, ACM, Sydney, NSW, Australia, 721-1730.

Chen, C., Li, O., Barnett, A., Su, J., & Rudin, C. (2019). Esto se parece a eso: Aprendizaje profundo para el reconocimiento de imágenes interpretables. Vancouver, Canadá, Advances in Neural Information Processing Systems.

Li, O., Liu, H., Chen, C., & Rudin, C. (2018). Aprendizaje profundo para el razonamiento basado en casos a través de prototipos: Una red neuronal que explica sus predicciones. The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), New Orleans, Louisiana, 3530-3587.

Li, Y., Murias, M., Major, S., Dawson, G., Dzirasa, K., Carin, L., & Carlson, D. E. (2017). Apuntando a la sincronía EEG/LFP con redes neuronales. Advances in Neural Information Processing Systems, Montreal, Canadá, 4620-4630.

Ming, Y., Xu, P., Qu, H., & Ren, L. (2019). Aprendizaje de secuencias interpretables y dirigibles a través de prototipos. Actas de la 25ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento & Minería de Datos, Anchorage, Alaska, 903-913.

Razavian, N., Blecker, S., Schmidt, A. M., Smith-McLallen, A., Nigam, S., & Sontag, D. (2015). Predicción a nivel de población de la diabetes tipo 2 a partir de datos de reclamaciones y análisis de factores de riesgo. Big Data, 3, 277-287.

Angwin, J. y Larson, J. y Mattu, S. y Kirchner, L. Machine Bias. ProPublica, https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing, consultado el 2016-5-23.

Rudin, C. (2019). Deje de explicar los modelos de aprendizaje automático de caja negra para las decisiones de alto riesgo y utilice en su lugar modelos interpretables. Nature Machine Intelligence, 1, 206-215.

Rudin, C., & Ustun, B. (2018). Sistemas de puntuación optimizados: Hacia la confianza en el aprendizaje automático para la asistencia sanitaria y la justicia penal. Interfaces, 48, 449-466.

Rudin, C., Wang, C., & Coker, B. (2019). La era del secreto y la injusticia en la predicción de la reincidencia. Harvard Data Science Review (en prensa).

Tollenaar, N., & van der Heijden, P. G. M. (2013). ¿Qué método predice mejor la reincidencia? Una comparación de modelos predictivos estadísticos, de aprendizaje automático y de minería de datos. Journal of the Royal Statistical Society, Series A: Statistics in Society, 176, 565-584.

Zeng, J., Ustun, B., & Rudin, C. (2016). Modelos de clasificación interpretables para la predicción de la reincidencia. Journal of the Royal Statistical Society, Series A: Statistics in Society, 180, 689-722.

Este artículo es © 2019 de Cynthia Rudin y Joanna Radin. El artículo está bajo una licencia de Creative Commons Attribution (CC BY 4.0) International (https://creativecommons.org/licenses/by/4.0/legalcode), excepto cuando se indique lo contrario con respecto al material particular incluido en el artículo. El artículo debe atribuirse a los autores identificados anteriormente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.