Em 2018, um desafio marcante em inteligência artificial (IA) ocorreu, a saber, o Desafio Explicável de Aprendizagem da Máquina. O objetivo do concurso era criar um modelo complicado de caixa preta para o conjunto de dados e explicar como ele funcionava. Uma equipa não seguiu as regras. Em vez de enviar uma caixa preta, eles criaram um modelo que era totalmente interpretável. Isto leva à questão de se o mundo real da aprendizagem de máquinas é semelhante ao Desafio Explicável de Aprendizagem de Máquinas, onde os modelos de caixas pretas são usados mesmo quando não são necessários. Discutimos os processos de pensamento desta equipe durante a competição e suas implicações, que vão muito além da competição em si.
Keywords: interpretabilidade, explicabilidade, aprendizagem de máquinas, finanças
Em dezembro de 2018, centenas de cientistas de computação, engenheiros financeiros e executivos se amontoaram em uma sala dentro do Centro de Convenções de Montreal na conferência anual NeurIPS (Neural Information Processing Systems) para ouvir os resultados do Desafio Explicável de Aprendizagem de Máquinas, uma competição de prestígio organizada em colaboração entre o Google, a Fair Isaac Corporation (FICO) e acadêmicos em Berkeley, Oxford, Imperial, UC Irvine e MIT. Este foi o primeiro concurso de ciência de dados que reflectiu a necessidade de fazer sentido dos resultados calculados pelos modelos de caixa negra que dominam a tomada de decisão baseada na aprendizagem de máquinas.
Nos últimos anos, os avanços na aprendizagem profunda da visão por computador levaram a uma crença generalizada de que os modelos mais precisos para qualquer problema de ciência de dados devem ser inerentemente ininterpretáveis e complicados. Esta crença deriva do uso histórico da aprendizagem de máquinas na sociedade: suas técnicas modernas nasceram e foram criadas para decisões de baixo risco, como publicidade online e busca na web, onde as decisões individuais não afetam profundamente as vidas humanas.
Na aprendizagem de máquinas, estes modelos de caixa preta são criados diretamente dos dados por um algoritmo, o que significa que os humanos, mesmo aqueles que os projetam, não conseguem entender como as variáveis estão sendo combinadas para fazer previsões. Mesmo que se tenha uma lista das variáveis de entrada, os modelos de previsão da caixa preta podem ser funções tão complicadas das variáveis que nenhum humano pode entender como as variáveis estão relacionadas entre si para chegar a uma previsão final.
Modelos interpretáveis, que fornecem uma alternativa tecnicamente equivalente, mas possivelmente mais ética do que os modelos da caixa preta, são diferentes – eles são constrangidos a fornecer uma melhor compreensão de como as previsões são feitas. Em alguns casos, pode ficar muito claro como as variáveis são relacionadas em conjunto para formar a previsão final, onde talvez apenas algumas variáveis são combinadas em uma curta declaração lógica, ou usando um modelo linear, onde as variáveis são ponderadas e somadas. Algumas vezes modelos interpretáveis são compostos por modelos mais simples (decomponíveis), ou outras restrições são colocadas no modelo para adicionar um novo nível de percepção. A maioria dos modelos de aprendizagem de máquinas, entretanto, não são projetados com restrições de interpretabilidade; eles são apenas projetados para serem preditores precisos em um conjunto de dados estáticos que podem ou não representar como o modelo seria usado na prática.
A crença de que a precisão deve ser sacrificada pela interpretabilidade é imprecisa. Tem permitido às empresas comercializar e vender modelos proprietários ou complicados de caixas negras para decisões de alto risco quando existem modelos muito simples e interpretáveis para as mesmas tarefas. Como tal, permite aos criadores dos modelos lucrar sem considerar consequências prejudiciais para os indivíduos afectados. Poucos questionam estes modelos porque os seus designers afirmam que os modelos precisam de ser complicados para serem precisos. O Desafio Explicável de Aprendizagem de Máquinas de 2018 serve como um estudo de caso para considerar os tradeoffs de favorecer modelos de caixas pretas em vez de modelos interpretáveis.
Prior para os vencedores do desafio que está sendo anunciado, o público – composto por jogadores de poder nos domínios das finanças, robótica e aprendizagem de máquinas – foi solicitado a se envolver em uma experiência de pensamento onde eles tinham câncer e precisavam de cirurgia para remover um tumor. Duas imagens foram exibidas na tela. Uma imagem representava um cirurgião humano, que podia explicar qualquer coisa sobre a cirurgia, mas tinha uma chance de 15% de causar a morte durante a cirurgia. A outra imagem mostrava um braço robótico que podia realizar a cirurgia com apenas 2% de chance de fracasso. O robô foi concebido para simular uma abordagem da inteligência artificial (IA) através de uma caixa negra. Neste cenário, era necessária total confiança no robô; não se podia fazer perguntas sobre o robô, e nenhum entendimento específico de como ele chegaria às suas decisões seria fornecido. A audiência foi então convidada a levantar uma mão para votar em qual dos dois preferiria realizar a cirurgia que salvasse vidas. Todos menos uma mão votaram a favor do robô.
Embora possa parecer óbvio que uma chance de 2% de mortalidade é melhor que uma chance de 15% de mortalidade, enquadrando as apostas dos sistemas de IA desta forma obscurece uma consideração mais fundamental e interessante: Por que o robô deve ser uma caixa negra? O robô perderia sua capacidade de realizar uma cirurgia precisa se fosse capacitado com a capacidade de se explicar? Ter uma melhor comunicação entre o robô e o paciente, ou um médico, não melhoraria o atendimento ao paciente em vez de diminuí-lo? O paciente não precisaria ser capaz de explicar ao robô que ele tinha um distúrbio de coagulação sanguínea antes da cirurgia?
Esta possibilidade, de que o robô não precisava ser uma caixa preta, não foi apresentada como uma opção, e o público do workshop teve apenas a escolha entre a caixa preta precisa e a caixa de vidro imprecisa. O público não foi informado como a precisão estava sendo medida para os resultados cirúrgicos (em que população foram medidos os 2% e 15%?) nem foram informados sobre possíveis falhas no conjunto de dados que foi usado para treinar o robô. Ao assumir que a precisão deve vir à custa da interpretabilidade (a capacidade de entender porque o cirurgião faz o que faz), esta experiência mental falhou em considerar que a interpretabilidade pode não prejudicar a precisão. A interpretabilidade pode até melhorar a precisão, já que permite compreender quando o modelo, neste caso um cirurgião robótico, pode estar incorreto.
Ser convidado a escolher uma máquina precisa ou um humano compreensível é uma falsa dicotomia. Entendê-la como tal ajuda-nos a diagnosticar os problemas que resultaram do uso de modelos de caixa negra para decisões de alto risco em toda a sociedade. Estes problemas existem nas finanças, mas também nos cuidados de saúde, na justiça criminal, e mais além.
Deixe-nos dar algumas provas de que esta suposição (que devemos sempre sacrificar alguma interpretabilidade para obter o modelo mais preciso) está errada. No sistema de justiça criminal, tem sido demonstrado repetidamente (Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018; Tollenaar & van der Heijden, 2013; Zeng, Ustun, & Rudin, 2016) que os complicados modelos de caixa preta para prever futuras detenções não são mais precisos do que modelos de previsão muito simples baseados na idade e na história criminal. Por exemplo, um modelo de aprendizagem de máquina interpretável para prever o rearrest criado em trabalho por Angelino et al. (2018), considera apenas algumas regras sobre a idade e a história criminal de alguém. O modelo completo de aprendizagem automática é o seguinte: se a pessoa tem ou >3 crimes anteriores, ou tem 18-20 anos e é do sexo masculino, ou tem 21-23 anos e tem dois ou três crimes anteriores, prevê-se que ela seja reiniciada dentro de dois anos a partir da sua avaliação, e de outra forma não. Embora não estejamos necessariamente defendendo o uso deste modelo particular em ambientes de justiça criminal, este conjunto de regras é tão preciso quanto o amplamente usado (e proprietário) modelo de caixa preta chamado COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), como usado no Condado de Broward, Flórida (Angelino et al., 2018).
O modelo simples acima também é tão preciso quanto muitos outros métodos de aprendizagem de máquinas de última geração (Angelino et al., 2018). Resultados semelhantes foram encontrados em métodos de aprendizagem de máquinas aplicados a muitos tipos diferentes de problemas de previsão do encosto traseiro em outros conjuntos de dados: os modelos interpretáveis (que eram modelos lineares muito pequenos ou modelos lógicos nestes estudos) foram executados tão bem como os modelos de aprendizagem de máquinas mais complicados (caixa preta) (Zeng et al., 2016). Não parece haver evidência de um benefício do uso de modelos de caixa preta para predição de risco criminal. Na verdade, pode haver desvantagens na medida em que essas caixas pretas são mais difíceis de solucionar problemas, confiar e usar.
Não parece haver também um benefício na precisão dos modelos de caixa preta em vários domínios da saúde e em muitas outras aplicações de aprendizagem de máquinas de alto risco onde decisões de mudança de vida estão sendo tomadas (por exemplo Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018, que todos mostram modelos com restrições de interpretabilidade que funcionam tão bem quanto modelos sem restrições). Pelo contrário, os modelos de caixa preta podem mascarar uma miríade de possíveis erros graves (por exemplo, ver Rudin, 2019). Mesmo na visão computadorizada, onde as redes neurais profundas (o tipo de modelo de caixa preta mais difícil de explicar) são o estado da arte, nós e outros cientistas (por exemplo, Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019) encontrámos formas de adicionar restrições de interpretabilidade aos modelos de aprendizagem profunda, levando a cálculos mais transparentes. Essas restrições de interpretabilidade não vieram em detrimento da precisão, mesmo para redes neurais profundas para visão computadorizada.
Confiar num modelo de caixa preta significa que você confia não só nas equações do modelo, mas também em todo o banco de dados a partir do qual ele foi construído. Por exemplo, no cenário do robô e do cirurgião, sem saber como os 2% e 15% foram estimados, devemos questionar a relevância desses números para qualquer subpopulação particular de pacientes médicos. Cada conjunto de dados razoavelmente complexo que temos visto contém imperfeições. Estas podem variar desde enormes quantidades de dados em falta (que não estão faltando ao acaso), ou confusos não medidos, até erros sistemáticos no conjunto de dados (por exemplo uma codificação incorrecta dos tratamentos com medicamentos), a problemas de recolha de dados que fazem com que a distribuição dos dados seja diferente do que pensávamos originalmente.
Um problema tão comum com modelos de caixas pretas em ambientes médicos é o vazamento de dados, onde alguma informação sobre a etiqueta y entra furtivamente nas variáveis x de uma forma que você pode não suspeitar ao olhar para os títulos e descrições das variáveis: às vezes você pensa que está a prever algo no futuro, mas você só está a detectar algo que aconteceu no passado. Ao prever resultados médicos, a máquina pode pegar em informações dentro das anotações dos médicos que revelam os resultados dos pacientes antes de serem registrados oficialmente e, portanto, erroneamente reclamá-los como previsões bem sucedidas.
Ao tentar contar com a preocupação generalizada sobre a opacidade dos modelos de caixa preta, alguns cientistas têm tentado oferecer explicações sobre eles, hipóteses sobre o porquê de tomarem as decisões que tomam. Tais explicações geralmente tentam ou imitar as previsões da caixa preta usando um modelo completamente diferente (talvez com diferentes variáveis importantes, mascarando o que a caixa preta pode estar realmente fazendo), ou fornecem outra estatística que produz informações incompletas sobre o cálculo da caixa preta. Tais explicações são superficiais, ou mesmo ocas, uma vez que estendem a autoridade da caixa preta em vez de reconhecer que ela não é necessária. E às vezes, essas explicações estão erradas.
Por exemplo, quando jornalistas da ProPublica tentaram explicar o que estava no modelo proprietário do COMPAS para previsão de reincidência (Angwin et al., 2016), eles parecem ter assumido erroneamente que se alguém pudesse criar um modelo linear que se aproximasse do COMPAS e dependesse de raça, idade e história criminal, que o próprio COMPAS deveria depender de raça. Entretanto, quando se aproxima o COMPAS usando um modelo não linear, a dependência explícita da raça desaparece (Rudin, Wang, & Coker, 2019), deixando a dependência da raça apenas através da idade e da história criminal. Este é um exemplo de como uma explicação incorreta de uma caixa negra pode sair fora de controle. Talvez se o sistema de justiça tivesse usado apenas modelos interpretáveis (que nós e outros demonstraram ser igualmente precisos), os jornalistas da ProPublica teriam sido capazes de escrever uma história diferente. Talvez, por exemplo, eles pudessem escrever sobre como erros tipográficos nessas partituras ocorrem freqüentemente, sem nenhuma maneira óbvia de resolvê-los, levando a uma tomada de decisão inconsistente no sistema de justiça (veja, por exemplo, Rudin et al., 2019).
Mas de volta à conferência NeurIPS de 2018, na sala cheia de especialistas que tinham acabado de escolher o robô em vez do cirurgião, o anunciante procedeu para descrever a competição. A FICO tinha fornecido um conjunto de dados da linha de crédito home equity (HELOC), que contém dados de milhares de indivíduos anônimos, incluindo aspectos de seu histórico de crédito e se o indivíduo não tinha ou não inadimplência no empréstimo. O objetivo do concurso era criar um modelo de caixa preta para prever a inadimplência do empréstimo, e depois explicar a caixa preta.
Uma pessoa assumiria que para um concurso que exigisse que os concorrentes criassem uma caixa preta e a explicassem, o problema realmente precisaria de uma caixa preta. Mas não precisava. Em julho de 2018, quando a equipe Duke recebeu os dados, depois de jogar com eles por apenas uma semana ou mais, percebemos que poderíamos efetivamente analisar os dados FICO sem uma caixa preta. Não importava se usávamos uma rede neural profunda ou técnicas estatísticas clássicas para modelos lineares, descobrimos que havia menos de 1% de diferença na precisão entre os métodos, o que está dentro da margem de erro causada pela amostragem aleatória dos dados. Mesmo quando usávamos técnicas de aprendizagem de máquinas que proporcionavam modelos muito interpretáveis, fomos capazes de alcançar uma precisão que correspondia à do melhor modelo de caixa preta. Nessa altura, ficámos intrigados com o que fazer. Devemos jogar pelas regras e fornecer uma caixa negra aos juízes e tentar explicá-la? Ou devemos fornecer o modelo transparente e interpretável? Em outras palavras, o que fazer quando você descobre que foi forçado à falsa dicotomia entre o robô e o cirurgião?
Nossa equipe decidiu que para um problema tão importante como a pontuação de crédito, não forneceríamos uma caixa preta para a equipe julgadora apenas com o propósito de explicá-la. Em vez disso, criámos um modelo interpretável que pensámos que até um cliente bancário com poucos conhecimentos matemáticos seria capaz de compreender. O modelo era decomponível em diferentes mini-modelos, onde cada um podia ser entendido por si só. Também criamos uma ferramenta adicional de visualização online interativa para emprestadores e indivíduos. Brincando com os fatores do histórico de crédito em nosso site permitiria que as pessoas entendessem quais fatores eram importantes para as decisões de solicitação de empréstimo. Nenhuma caixa preta. Sabíamos que provavelmente não iríamos ganhar a competição dessa forma, mas havia um ponto maior que precisávamos fazer.
Uma pessoa poderia pensar que existem muitas aplicações onde modelos interpretáveis não podem ser tão precisos quanto os modelos de caixa preta. Afinal de contas, se você pudesse construir um modelo interpretável preciso, por que então usaria uma caixa preta? No entanto, como o Desafio Explicável de Aprendizagem da Máquina revelou, existem na verdade muitas aplicações em que as pessoas não tentam construir um modelo interpretável, porque podem acreditar que para um conjunto de dados complexo, um modelo interpretável não poderia ser tão preciso como uma caixa negra. Ou talvez eles queiram preservar o modelo como proprietário. Poder-se-ia então considerar que se modelos interpretáveis de aprendizagem profunda podem ser construídos para visão computacional e análise de séries temporais (por exemplo, Chen et al., 2019; Y. Li et al., 2017; O. Li et al., 2018; Ming et al, 2019), então o padrão deve ser alterado da suposição de que modelos interpretáveis não existem, para a suposição de que eles existem, até prova em contrário.
Outro, quando os cientistas entendem o que estão fazendo quando constroem modelos, eles podem produzir sistemas de IA que são mais capazes de servir os humanos que confiam neles. Nesses casos, o chamado tradeoff de precisão-interpretabilidade revela-se uma falácia: modelos mais interpretáveis muitas vezes tornam-se mais (e não menos) precisos.
A falsa dicotomia entre a caixa preta precisa e o modelo transparente não tão preciso foi longe demais. Quando centenas de cientistas líderes e executivos de empresas financeiras são enganados por esta dicotomia, imagine como o resto do mundo também pode ser enganado. As implicações são profundas: afecta o funcionamento do nosso sistema de justiça criminal, dos nossos sistemas financeiros, dos nossos sistemas de saúde, e de muitas outras áreas. Vamos insistir que não utilizemos modelos de aprendizagem de máquinas de caixa preta para decisões de alto risco, a menos que nenhum modelo interpretável possa ser construído que atinja o mesmo nível de precisão. É possível que um modelo interpretável possa sempre ser construído – nós simplesmente não temos tentado. Talvez se o fizéssemos, nunca usaríamos caixas pretas para essas decisões de alto risco.
Notas
-
O site do Desafio Explicável de Aprendizagem de Máquinas está aqui: https://community.fico.com/s/explainable-machine-learning-challenge
-
Este artigo é baseado na experiência de Rudin em competir no Desafio Explicável de Aprendizagem de Máquinas de 2018.
-
Os leitores podem brincar com a nossa participação em competição interactiva para o desafio aqui: http://dukedatasciencefico.cs.duke.edu
-
A nossa participação de facto não venceu a competição como julgado pelos organizadores da competição. Os juízes não tiveram permissão para interagir com o nosso modelo e sua ferramenta de visualização; foi decidido, após o prazo de envio, que nenhuma visualização interativa seria fornecida aos juízes. No entanto, a FICO realizou sua própria avaliação separada dos trabalhos do concurso, e nosso trabalho teve boa pontuação na avaliação deles, ganhando o Prêmio de Reconhecimento FICO para o concurso. Aqui está o anúncio dos vencedores FICO:
https://www.fico.com/en/newsroom/fico-announces-winners-of-inaugural-xml-challenge?utm_source=FICO-Community&utm_medium=xml-challenge-page
-
Até onde os autores sabem, nós fomos a única equipe a fornecer um modelo interpretável em vez de uma caixa preta.
Angelino, E., Larus-Stone, N., Alabi, D., Seltzer, M., & Rudin, C. (2018). Listas de regras de aprendizagem certificadamente ótimas para dados categóricos. Journal of Machine Learning Research, 18(234), 1-78.
Caruana, R., Lou, Y., Gehrke, J., Koch, P., Sturm, M., & Elhadadad, N. (2015). Modelos inteligíveis para os cuidados de saúde: Previsão de risco de pneumonia e readmissão hospitalar de 30 dias. Anais da 21ª Conferência Internacional ACM SIGKDD sobre Descoberta do Conhecimento e Mineração de Dados, ACM, Sydney, NSW, Austrália, 721-1730.
Chen, C., Li, O., Barnett, A., Su, J., & Rudin, C. (2019). Isto é o que parece: Aprendizagem profunda para reconhecimento de imagem interpretável. Vancouver, Canada, Advances in Neural Information Processing Systems.
Li, O., Liu, H., Chen, C., & Rudin, C. (2018). Aprendizagem profunda para raciocínio baseado em casos através de protótipos: Uma rede neural que explica as suas previsões. The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), New Orleans, Louisiana, 3530-3587.
Li, Y., Murias, M., Major, S., Dawson, G., Dzirasa, K., Carin, L., & Carlson, D. E. (2017). Apontando a sincronia EEG/LFP com redes neurais. Advances in Neural Information Processing Systems, Montreal, Canada, 4620-4630.
Ming, Y., Xu, P., Qu, H., & Ren, L. (2019). Aprendizagem de sequências interpretáveis e orientáveis através de protótipos. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Anchorage, Alasca, 903-913.
Razavian, N., Blecker, S., Schmidt, A. M., Smith-McLallen, A., Nigam, S., & Sontag, D. (2015). Previsão a nível populacional da Diabetes Tipo 2 a partir de dados de sinistros e análise de factores de risco. Big Data, 3, 277-287.
Angwin, J. e Larson, J. e Mattu, S. e Kirchner, L. Machine Bias. ProPublica, https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing, acessado em 2016-5-23.
Rudin, C. (2019). Pare de explicar os modelos de aprendizagem de máquinas de caixa preta para decisões de apostas altas e use modelos interpretáveis em seu lugar. Nature Machine Intelligence, 1, 206-215.
Rudin, C., & Ustun, B. (2018). Sistemas de pontuação otimizados: Rumo à confiança na aprendizagem de máquinas para os cuidados de saúde e justiça criminal. Interfaces, 48, 449-466.
Rudin, C., Wang, C., & Coker, B. (2019). A era do segredo e da injustiça na previsão da reincidência. Harvard Data Science Review (no prelo).
Tollenaar, N., & van der Heijden, P. G. M. (2013). Qual método prediz melhor a reincidência? Uma comparação de modelos de previsão estatística, de aprendizagem de máquinas e de mineração de dados. Journal of the Royal Statistical Society, Series A: Statistics in Society, 176, 565-584.
Zeng, J., Ustun, B., & Rudin, C. (2016). Modelos de classificação interpretáveis para a previsão da reincidência. Journal of the Royal Statistical Society, Series A: Statistics in Society, 180, 689-722.
Este artigo é © 2019 por Cynthia Rudin e Joanna Radin. O artigo está licenciado sob uma licença internacional Creative Commons Attribution (CC BY 4.0) (https://creativecommons.org/licenses/by/4.0/legalcode), exceto quando indicado de outra forma com respeito a material particular incluído no artigo. O artigo deve ser atribuído aos autores identificados acima.