Los algoritmos son un conjunto de instrucciones que determinan cómo los programas leen, recopilan, procesan y analizan datos para generar una salida. Intencionalmente o no, el sesgo puede introducirse en cualquier etapa de este proceso.
Escrito por Raesetje Sefala
Publicado en 13 de Septiembre de 2021.
Imagina que eres sordo y ciego. Toda la información que obtienes sobre el mundo proviene de unas pocas fuentes y, dependiendo de quién sea la fuente, la información podría estar muy sesgada hacia una categoría. Debido a que no tienes otro sentido del mundo, el sesgo podría tomar tiempo para notarlo. Comparativamente, podemos pensar en los algoritmos informáticos de la misma manera. Imagine un sistema de aprendizaje automático de vanguardia y altamente especializado creado por una empresa privada para una agencia gubernamental. Muchas veces, la agencia no tiene las habilidades internas para probar a fondo qué tan bien el sistema resuelve el problema complejo que está tratando de resolver. Un ejemplo de esta situación se experimentó cuando los departamentos de policía de los EE. UU. compraron sistemas de reconocimiento facial "de última generación" de empresas privadas para ayudar a identificar a los posibles perpetradores, sistemas que la investigación finalmente demostró que estaban sesgados contra ciertos grupos de población. Desafortunadamente, la diferencia en el tiempo entre el momento en que estos sistemas se implementaron en la vida real y el momento en que se prohibieron después de que las revisiones demostraran que eran inexactos y tendenciosos, es un daño de por vida para las personas de varios grupos de población minoritarios que fueron acusados falsamente, un daño que no puede ser deshecho.
Los algoritmos, como un conjunto de instrucciones que determinan cómo los programas leen, recopilan, procesan y analizan datos para generar una salida. Intencionalmente o no, el sesgo puede introducirse en cualquier etapa de este proceso. Dependiendo de los datos reales disponibles, los desarrolladores pueden perpetuar esto al no incluir ciertas etiquetas que se requieren para describir ciertos fenómenos. Los modelos de aprendizaje automático a menudo requieren conjuntos de datos grandes y bien equilibrados para ofrecer resultados imparciales. El sesgo algorítmico también podría provenir de las personas que construyen los modelos. Cuando los datos están incompletos, los equipos de diseño a menudo deciden omitir o fusionar ciertas clases porque no tienen suficientes datos para representar esa clase o suponen que la diferencia sería insignificante.
A menudo lleva mucho tiempo detectar los resultados de los algoritmos sesgados, porque a menudo afectan puntos de datos que representan grupos minoritarios en el sistema. Dependiendo de quién esté probando el sistema, también se pueden pasar por alto los grupos mayoritarios. Por ejemplo, las empresas privadas a menudo ni siquiera son del mismo país que los gobiernos con los que implementan, y no consultan a expertos locales cuando construyen estos sistemas. Esto puede contribuir a decisiones de diseño que pueden introducir sesgos en sus algoritmos.
No es fácil idear algoritmos para resolver problemas complejos. Estos problemas generalmente los experimentan personas reales y causan consecuencias reales. El objetivo inicial al construir estos algoritmos es representar todos los puntos de datos de manera justa para resolver el problema. Sin embargo, a medida que comienza a construir estos algoritmos, se da cuenta de que pueden surgir diferentes problemas debido a diferentes desafíos. Estos desafíos pueden incluir: la falta de datos representativos, la falta de recursos (mano de obra, computación, habilidades, tiempo, etc.), la comunicación deficiente de los requisitos, la falta de una investigación de antecedentes adecuada sobre el problema, las barreras del idioma o incluso la falta de perspectiva de la persona que experimenta el problema. Como desarrollador, experimentar uno o más de estos desafíos podría sesgar por completo su forma de pensar sobre el problema que está resolviendo y, por lo tanto, redefinir lo que realmente significa resolver el problema. La construcción de estos algoritmos suele depender en gran medida de lo que el desarrollador considere importante para resolver el problema. De esta forma, no darían por sentadas ciertas decisiones de diseño durante la creación del algoritmo. Es muy importante que los equipos tengan ideas diversas, para inspirar múltiples perspectivas cuando se trata de definir qué decisiones de diseño algorítmico podrían causar que el algoritmo esté sesgado.
Estos algoritmos no suelen ser perfectos (si no siempre). Incluso durante la era anterior, cuando digitalizábamos registros en papel, algunas letras del alfabeto no se incluían en algunos sistemas informáticos que se usaban para digitalizar estos registros. Ese sesgo algorítmico resultó en que los nombres de muchas personas se escribieran de manera diferente y, como resultado, tuvieran un significado completamente diferente. Sin embargo, con estos algoritmos más avanzados que se utilizan hoy en día, el sesgo algorítmico podría resultar en que más grupos de población sean castigados o descuidados de manera desproporcionada, todo porque estos nuevos algoritmos toman decisiones más importantes que antes tomaban los seres humanos. Se podría decir que es responsabilidad de las empresas compartir las deficiencias de sus algoritmos con sus clientes y educarlos sobre la mejor manera de mitigarlas. Sin embargo, la realidad es que podría haber poca recompensa para ellos por hacerlo con total honestidad, o la empresa podría no saber que se perpetúa un sesgo perjudicial. El hecho de que no haya pautas claras cuando se trata de implementar estas soluciones novedosas en el mundo real, también significa que la idea de responsabilidad puede darse por sentada. Otro factor importante es que las agencias/instituciones que utilizan estos algoritmos en el público no suelen ser transparentes y dificultan que el público revise los sistemas.