Por Scott Zoldi
Chief Analytics Officer de FICO
Existe una gran controversia en los círculos empresariales sobre si las compañías están utilizando la tecnología de inteligencia artificial (IA) para fines poco éticos, o si lo están haciendo sin saberlo. Esta publicación no se trata de eso, se trata de lo que significa la IA ética para el desarrollo de modelos.
Una de las percepciones erróneas más comunes que escucho sobre el sesgo es: «Si no uso como variables la edad, sexo, raza, o factores similares en mi modelo, no está sesgado». Desafortunadamente, eso no es cierto.
Desde el punto de vista de un científico de datos, la IA ética se logra tomando precauciones para exponer lo que el modelo subyacente de aprendizaje automático (ML) aprendió y si podría imputar sesgo. A primera vista, las precauciones que a menudo se toman para aislar los campos de datos de entrada utilizados por los modelos pueden parecer suficientes. Sin embargo, las características latentes del modelo, que combinan las entradas, son difíciles de interpretar en cuanto a si inyectan o no sesgo. Tras una inspección más profunda, el modelo a menudo produce resultados sesgados hacia una clase en particular. (Aquí me refiero a la clase de datos, no a la socioeconómica).
Sesgo y variables de confusión
El aprendizaje automático aprende las relaciones entre los datos para adaptarse a una función objetivo (o fin) particular. A menudo, formará proxies para entradas evitadas y estos proxies muestran sesgo. El sesgo queda expuesto cuando las «variables de confusión» hacen que estos proxies sean más activados por una clase de datos en comparación con otra, lo que lleva al modelo a producir resultados sesgados.
Por ejemplo, si un modelo incluye la marca y la versión del teléfono móvil de un individuo, esos datos pueden estar relacionados con la capacidad de pagar un teléfono celular costoso, una característica que puede imputar ingresos. Si el ingreso no es un factor deseable para usar directamente en la decisión, al imputar esa información a partir de datos como el tipo de teléfono o el valor de las compras que realiza el individuo, se introduce un sesgo en el modelo. Esto se debe a que, en promedio, los clientes pudientes pueden permitirse más teléfonos de alta calidad y costosos que un grupo no acomodado.
La investigación sobre los efectos del tabaquismo proporciona otro ejemplo de variables de confusión. En décadas pasadas, se produjo una investigación que esencialmente hizo una correlación tranquilizadora: “Si fumas, tu probabilidad de morir en los próximos cuatro años es bastante baja. Por lo tanto, fumar está bien”. La variable de confusión en este supuesto fue la distribución de la edad de los fumadores. En el pasado, la población fumadora contenía muchos fumadores más jóvenes cuyo cáncer se desarrollaría más adelante en la vida. Muchos fumadores mayores ya habían fallecido y, por lo tanto, su contribución se redujo al mínimo para alcanzar este hallazgo. Por lo tanto, los modelos analíticos representativos de la conclusión de «fumar está bien» contenían un sesgo abrumador impulsado por una mayor densidad de fumadores más jóvenes, creando así una percepción sesgada sobre la seguridad de fumar.
Hoy en día, un modelo que podría llegar a un sesgo similar podría llegar a la conclusión de que, dado que muchos menos jóvenes fuman cigarrillos que hace 50 años, los niveles de adicción a la nicotina también han disminuido. Sin embargo, el uso de cigarrillos electrónicos por parte de los jóvenes aumentó un 78% entre 2017 y 2018, a uno de cada cinco estudiantes de secundaria. Los cigarrillos electrónicos son potentes dispositivos de suministro de nicotina, fomentan la rápida adicción a la nicotina y simplemente desvían el uso de nicotina a un nuevo vehículo de entrega. Sin reflejar este método de suministro de nicotina, tendríamos una visión errónea de la adicción a la nicotina entre los jóvenes.
Encontrar sesgos ocultos
El desafío de ofrecer una IA verdaderamente ética requiere examinar de cerca cada clase de datos por separado, con respecto a las relaciones en los datos que generan resultados: las características latentes. Como científicos de datos, debemos demostrarnos a nosotros mismos y al mundo que las tecnologías de inteligencia artificial y aprendizaje automático no están sometiendo a poblaciones específicas a sesgos y a buscar variables de confusión. Para alcanzar ese objetivo, las relaciones aprendidas deben exponerse utilizando tecnologías explicables de características latentes en lugar de complejas redes de variables interconectadas. Estos últimos contienen relaciones que deben probarse pero que no pueden extraerse de los modelos de aprendizaje automático.