El sesgo en los modelos de lenguaje
«Alimentar a los sistemas de IA con la belleza, la fealdad y la crueldad del mundo, pero esperar que solo reflejen la belleza, es una fantasía.»
Los modelos grandes de lenguaje, o large language models (LLMs, en inglés), están revolucionando el mundo de la inteligencia artificial y algunos como ChatGPT se han hecho populares en muy poco tiempo. Se trata de una generación de modelos de IA, denominados “grandes” porque tienen millones de parámetros, que se basan en una tecnología deep learning llamada transformer.
Antes de los transformers se empleaban redes neuronales que trabajan sobre el texto de manera recursiva. El cambio que supusieron los transformers es la introducción del concepto de “atención”. Explicado en pocas palabras, es un enfoque que se basa en asignar diferentes pesos o importancias a partes específicas de una secuencia de entrada. Esto permite al modelo enfocarse en partes relevantes y capturar mejor las relaciones y dependencias entre diferentes elementos de la secuencia.
Estos modelos manejan el lenguaje de manera muy efectiva, así que se están implementando en un sinfín de aplicaciones que pueden transformar sectores tan diversos como la educación, la salud o el entretenimiento.
Por su potencial omnipresencia, tenemos que asegurarnos de que sean justos pero, lamentablemente, no siempre es así. Los LLMs están entrenados con grandes volúmenes de texto, generalmente obtenidos masivamente de Internet. A través del entrenamiento con estos textos desarrollan todas sus impresionantes capacidades. Pero si los textos usados en el entrenamiento están sesgados o contienen estereotipos, es probable que el modelo final también los reproduzca.
Por ejemplo, se sabe que algunos de estos modelos encuentran relaciones entre frases referidas a personas con discapacidad y palabras con connotaciones negativas. E, internamente, cuando hemos preguntado a ChatGPT por posibles nombres de ejecutivos el 60% de los que genera son hombres, mientras que si preguntamos por nombres de profesores la mayoría son mujeres.
Esto es un problema cuando queremos utilizar los modelos para tomar decisiones. Si usáramos estos modelos para interpretar la realidad, o los empleamos para generar una realidad nueva (usando lo que se llaman “modelos generativos”) estaríamos interponiendo entre nosotros y esa realidad un mecanismo que ha heredado los sesgos nocivos presentes en la sociedad.
Usar LLMs menos sesgados nos ayudará a que las decisiones basadas en ellos sean más justas, reducir (o no perpetuar) la discriminación que sufren ciertos colectivos, y, de paso, mejorar la confianza y aceptación de la IA por parte de la sociedad, que impacta ya sobre las vidas de todos nosotros y que debe ser especialmente sensible hacia las necesidades de todos los colectivos para no dejar a nadie fuera. En ese sentido, por ejemplo, el Comité Español de Representantes de Personas con Discapacidad (CERMI) defiende un uso inclusivo de la Inteligencia Artificial (IA) como factor determinante para favorecer el empleo decente de las personas con discapacidad, un grupo social sometido a condiciones estructurales de exclusión laboral. Cada vez se escuchan más voces exigiendo lo mismo para otros grupos sociales no sólo desde los propios colectivos, sino desde otro tipo de agentes. Así, la Organización para la Cooperación y el Desarrollo Económicos publicó por ejemplo en 2019 su principios para el desarrollo de la IA.
Para poder minimizar o eliminar el impacto de los sesgos debemos ser capaces de valorar lo sesgado que está un LLM. Esto nos permitirá corregirlos y reducir sus posibles efectos adversos. Sin embargo, esta tarea plantea algunas dificultades, entre las que se pueden destacar:
- Los sesgos pueden manifestarse de maneras sutiles y complejas, lo que requiere una interpretación profunda y contextual de las respuestas del modelo, más allá de un simple análisis estadístico.
- La determinación de qué es un sesgo plantea grandes desafíos, porque no existe un consenso social al respecto y no disponemos de un punto de referencia universalmente aceptado. Además, los puntos de vista y la sensibilidad social evolucionan. Por ejemplo, como colectivos, no a nivel individual, los hombres y las mujeres tienen percepciones diferentes de lo que consideran acoso sexual online, y es probable que ambas visiones hayan cambiado en las últimas décadas gracias por ejemplo al impacto del activismo y de movimientos como el “MeToo”.
- Los sesgos se pueden encontrar en varias etapas de la vida de un modelo, desde la recolección de datos hasta su utilización en producción, pasando por la representación interna de conceptos como “masculino” o “femenino” que el modelo genera en cada situación.
En LHF Labs trabajamos en el desarrollo de soluciones para determinar los sesgos de los LLMs. Estamos creando métodos que consideran las complejidades de medir estos sesgos y proponemos soluciones que:
- Cuantifican los sesgos a lo largo de diferentes ejes.
- Tienen en cuenta trabajos de disciplinas (incluyendo la sociolingüística, la sociología o la psicología social) que llevan décadas estudiando el papel que juega el lenguaje en el mantenimiento de las jerarquías sociales.
- Se enfocan en varias fases del modelo.
La IA y en particular las tecnologías del lenguaje tienen el potencial de ayudar a reducir la brecha digital y mejorar la inclusión facilitando el uso de las herramientas, la interacción con las máquinas y la comprensión del lenguaje usando texto claro. Pero la propia tecnología contiene trampas que hay que evitar: la forma en la que se crean y entrenan los LLM utilizando textos y documentos escritos por humanos, con sus propios sesgos humanos, hace que sea especialmente importante encontrar maneras de no trasladar a los modelos esos sesgos. Algoritmizar elementos discriminatorios es una manera de institucionalizarlos, al incluirlos en las lógicas automáticas que luego manejan las entidades que conforman la sociedad: empresas, instituciones públicas, centros de generación y transferencia de conocimiento y los propios ciudadanos en último término.
En LHF Labs pensamos que no puede haber un uso ético de la IA que no tenga en cuenta estas consideraciones, por eso nos esforzamos por encontrar maneras de identificar y corregir los sesgos.