En el vertiginoso avance de la inteligencia artificial, uno de los desafíos más inquietantes ha sido el fenómeno de las “alucinaciones”: respuestas incorrectas generadas por modelos de lenguaje que, pese a su falsedad, se presentan con una seguridad tan convincente que pueden inducir al error incluso a usuarios expertos. Este problema, que compromete la fiabilidad y la ética del uso de la IA, ha sido objeto de un reciente informe técnico publicado por OpenAI.
¿Por qué alucinan las IAs?
Lejos de tratarse de un fallo misterioso, OpenAI sostiene que las alucinaciones son el resultado directo de cómo se entrenan estos sistemas. Durante el proceso de aprendizaje, los modelos enfrentan lo que la empresa denomina “presiones estadísticas”: una tendencia a generar respuestas incluso cuando no hay certeza. En lugar de reconocer la duda, el modelo opta por la opción más probable, como un estudiante que responde en un examen sin saber la respuesta, esperando acertar por intuición.
En la etapa de preentrenamiento, los modelos aprenden a partir de grandes volúmenes de texto sin etiquetas que indiquen si una afirmación es verdadera o falsa. Aunque las fuentes sean confiables, la ausencia de un mecanismo para identificar la incertidumbre lleva al modelo a responder por defecto, incluso cuando no debería hacerlo.
Vea también: OpenAI impulsa el desarrollo de agentes de voz con su modelo más avanzado
Consciente del riesgo, OpenAI ha introducido una estrategia para mitigar este sesgo: el sistema “Is-It-Valid” (¿Es válida?), una clasificación binaria que permite al modelo distinguir entre respuestas correctas y erróneas. Esta innovación busca fomentar que el modelo se abstenga de responder cuando no tiene suficiente información, añadiendo una capa de humildad a su comportamiento.
GPT-5, el modelo más reciente, incorpora tres categorías de respuesta: aciertos, errores y abstenciones. Según datos internos, esta versión se abstiene en un 52% de los casos dudosos, frente al escaso 1% de abstenciones en versiones anteriores como o4-mini. Aunque o4-mini tiene una tasa ligeramente superior de respuestas correctas, su propensión a equivocarse es mucho mayor.
El informe también critica los métodos actuales de evaluación en la industria. Los benchmarks y las “model cards” suelen enfocarse exclusivamente en el porcentaje de respuestas correctas, ignorando las alucinaciones. Esta visión parcial premia la precisión, pero penaliza la prudencia, perpetuando el problema de respuestas falsas que suenan convincentes.
Le puede interesar: Rappi se alía con OpenAI y ofrecerá seis meses gratuitos de ChatGPT Plus a sus usuarios premium
OpenAI propone un cambio de paradigma: valorar no solo la exactitud, sino también la capacidad de reconocer límites. Incorporar métricas que premien la abstención cuando corresponde podría ser clave para construir sistemas más seguros y éticos.
El análisis concluye que reducir las alucinaciones no depende únicamente de mejorar la arquitectura de los modelos, sino de transformar la forma en que se entrenan y evalúan. La inclusión de mecanismos como “Is-It-Valid” representa un paso hacia una inteligencia artificial más honesta, capaz de decir “no lo sé” cuando la situación lo exige.
Aunque GPT-5 muestra avances significativos, el informe de OpenAI llama a la industria a evolucionar sus estándares técnicos, para que la humildad sea tan valorada como la precisión. Solo así se podrá evitar que la IA siga fascinando con errores bien formulados, pero potencialmente peligrosos.