OpenAI publica un artículo raro: hemos encontrado al culpable de las alucinaciones de la IA.

¿Cuál es el error más infame de la IA? No es el colapso del código, sino la "alucinación": el modelo inventa hechos con confianza, lo que hace que sea difícil distinguir entre lo verdadero y lo falso. Este desafío fundamental es el obstáculo clave que impide que confiemos plenamente en la IA.

Los grandes modelos pueden tener alucinaciones, lo que ya se ha convertido en una especie de conocimiento común, obligando a cada persona que utiliza seriamente estos modelos a ser cautelosa. OpenAI también señaló: "ChatGPT también puede producir alucinaciones. Las alucinaciones de GPT-5 son notablemente menores, especialmente al realizar inferencias, pero aún pueden ocurrir. Las alucinaciones siguen siendo un gran desafío fundamental al que se enfrentan todos los modelos de lenguaje de gran tamaño."

A pesar de que en la academia ya se han propuesto diversos métodos para reducir la ilusión del modelo, aún no ha surgido una solución que pueda "curar" completamente la ilusión del modelo.

Entonces, ¿por qué los modelos grandes tienen alucinaciones? Hoy, OpenAI publicó un artículo raro que revela sistemáticamente la raíz de las alucinaciones.

Primero, definamos la ilusión. La definición simple dada por OpenAI es: "la situación en la que el modelo genera respuestas no reales con confianza."

En cuanto a la razón, en pocas palabras es esta: los procedimientos estándar de entrenamiento y evaluación tienden a recompensar las conjeturas en lugar de recompensar al modelo cuando se atreve a admitir incertidumbre.

  • Título del documento: Por qué los modelos de lenguaje alucinan
  • Dirección del documento:

A continuación, veamos específicamente qué ha descubierto OpenAI.

¿Qué es la ilusión?

Las alucinaciones son afirmaciones que parecen razonables pero son incorrectas, generadas por modelos de lenguaje.

Incluso las preguntas que parecen simples pueden surgir de maneras inesperadas. OpenAI dio un ejemplo, cuando se le preguntó a diferentes chatbots ampliamente utilizados sobre el título de la tesis doctoral de Adam Tauman Kalai (primer autor del artículo), respondieron con tres respuestas diferentes con confianza, pero ninguna de ellas era correcta.

Cuando se le preguntó por su cumpleaños, dio tres fechas diferentes, todas incorrectas.

Aprender para probar

OpenAI indica que las alucinaciones persisten, en parte porque los métodos de evaluación actuales establecen incentivos incorrectos. Aunque la evaluación en sí no conduce directamente a las alucinaciones, la mayoría de las formas en que se evalúa el rendimiento de los modelos fomentan que los modelos adivinen, en lugar de enfrentar honestamente la incertidumbre.

Puedes imaginarlo como un test de opción múltiple. Si no sabes la respuesta, pero adivinas al azar, podrías tener la suerte de acertar. Dejarlo en blanco te asegura un cero. De la misma manera, cuando el modelo se califica únicamente en base a la precisión (es decir, el porcentaje de preguntas respondidas correctamente), se les anima a adivinar en lugar de admitir "no sé".

Para dar otro ejemplo, supongamos que se le pregunta a un modelo de lenguaje sobre el cumpleaños de alguien, pero no lo sabe. Si adivina "10 de septiembre", entonces tiene una probabilidad de 1/365 de acertar. Decir "no lo sé" necesariamente obtiene cero puntos. En miles de preguntas de prueba, el modelo basado en suposiciones finalmente se desempeña mejor en la tabla de puntuaciones que el modelo cauteloso que admite incertidumbre.

Para las preguntas que tienen una única "respuesta correcta", se pueden considerar tres tipos de respuestas: respuesta precisa, respuesta incorrecta y respuesta de rechazo que el modelo no se atreve a adivinar.

OpenAI afirma que las respuestas de renuncia son parte del indicador de humildad, y la humildad es uno de los valores fundamentales de OpenAI.

La mayoría de los indicadores de puntuación priorizan los modelos según su precisión, pero las respuestas incorrectas son peores que las respuestas en blanco. Las especificaciones del modelo de OpenAI indican que es mejor señalar la incertidumbre o solicitar aclaraciones que proporcionar información potencialmente incorrecta con confianza.

Tomemos como ejemplo la evaluación de SimpleQA en la tarjeta del sistema GPT5.

En términos de precisión, el modelo OpenAI o4-mini más antiguo tiene un rendimiento ligeramente mejor. Sin embargo, su tasa de error (es decir, la tasa de alucinaciones) es notablemente más alta. Hacer conjeturas estratégicas en situaciones de incertidumbre puede mejorar la precisión, pero también aumentará los errores y las alucinaciones.

Al promediar los resultados de decenas de evaluaciones, la mayoría de las pruebas de referencia excluyen el indicador de precisión, lo que conduce a una falsa dicotomía entre lo correcto y lo incorrecto.

En evaluaciones simples como SimpleQA, la precisión de algunos modelos se acerca al 100%, eliminando así las ilusiones. Sin embargo, en evaluaciones más desafiantes y en el uso real, la precisión se fija por debajo del 100%, ya que las respuestas a algunas preguntas no pueden determinarse por diversas razones (por ejemplo, información no disponible, la capacidad de pensamiento limitada de modelos pequeños o ambigüedades que requieren aclaración).

Sin embargo, los indicadores de evaluación que se miden únicamente por la precisión siguen dominando las tablas de clasificación y las tarjetas de modelos, lo que alentará a los desarrolladores a construir modelos que puedan adivinar en lugar de retroceder.

Justo por eso, incluso si los modelos se vuelven más avanzados, seguirán generando ilusiones. Una de las razones es que tienden a dar respuestas incorrectas con confianza en lugar de admitir incertidumbre.

mejor método de evaluación

A este respecto, OpenAI señaló una solución simple: la penalización por errores de confianza (confidential error) es mayor que la penalización por incertidumbre, y se otorgan puntos adicionales por expresar adecuadamente la incertidumbre.

Esta idea no es nueva. Algunas pruebas estandarizadas han utilizado durante mucho tiempo métodos de puntuación negativa para respuestas incorrectas o han otorgado puntos parciales por preguntas en blanco para evitar adivinaciones al azar. Algunos equipos de investigación también han explorado métodos de evaluación que consideran la incertidumbre y la calibración.

Pero OpenAI afirma que simplemente aumentar algunas pruebas de percepción de incertidumbre no es suficiente. Los métodos de evaluación basados en la precisión, que son ampliamente utilizados, necesitan ser actualizados para que sus puntuaciones puedan evitar las conjeturas.

Si los principales indicadores de evaluación continúan recompensando las conjeturas afortunadas del modelo, el modelo seguirá aprendiendo a adivinar. Modificar los indicadores de evaluación puede ampliar el alcance de la adopción de técnicas de alucinación, incluyendo técnicas desarrolladas recientemente y las de investigaciones anteriores.

¿Cómo se generan las alucinaciones a partir de la predicción de la siguiente palabra?

Ya se ha discutido anteriormente por qué es tan difícil deshacerse de las ilusiones, pero ¿de dónde provienen exactamente estos errores de hecho tan específicos?

Después de todo, los grandes modelos preentrenados rara vez cometen otros tipos de errores, como errores ortográficos y paréntesis desajustados.

OpenAI afirmó que la diferencia radica en qué patrones existen en los datos.

Los modelos de lenguaje aprenden primero a través del preentrenamiento, que es un proceso de predicción de la siguiente palabra en una gran cantidad de texto.

A diferencia de los problemas tradicionales de aprendizaje automático, cada declaración no tiene una etiqueta de "verdadero / falso". El modelo solo ve ejemplos positivos de lenguaje fluido y debe aproximarse a la distribución general.

Cuando no hay ningún ejemplo etiquetado como inválido, distinguir entre declaraciones válidas e inválidas se vuelve más difícil. Pero incluso con etiquetas, algunos errores son inevitables.

Para entender la razón, se puede considerar una analogía más simple. En el reconocimiento de imágenes, si millones de fotos de gatos y perros están etiquetadas como "gato" o "perro", el algoritmo puede aprender a clasificarlas de manera confiable. Pero imagina que si se etiquetara cada foto de mascota con la fecha de cumpleaños de la mascota. Dado que los cumpleaños son, en esencia, aleatorios, no importa cuán avanzado sea el algoritmo, esta tarea siempre dará lugar a errores.

Los mismos principios se aplican a la preentrenamiento. La ortografía y los paréntesis siguen un patrón consistente, por lo que estos errores desaparecen a medida que aumenta la escala. Pero hechos aleatorios de baja frecuencia, como el cumpleaños de una mascota, no pueden preverse solo a partir de patrones, lo que conduce a ilusiones.

El análisis de OpenAI explica qué tipos de alucinaciones pueden ser producidas por la predicción de la siguiente palabra. Idealmente, las etapas posteriores a la preentrenamiento deberían ser capaces de eliminar estas alucinaciones, pero esto no se ha logrado completamente debido a las razones descritas en la sección anterior.

Resumen

OpenAI declaró: "Esperamos que la perspectiva estadística en este artículo pueda aclarar la naturaleza de las alucinaciones y refutar algunos malentendidos comunes."

Alguien ha afirmado: las alucinaciones se pueden eliminar aumentando la precisión, ya que un modelo con 100% de precisión nunca produce alucinaciones.

Descubrimiento: la precisión nunca alcanzará el 100%, ya que, sin importar el tamaño del modelo, la capacidad de búsqueda y razonamiento, algunos problemas del mundo real son intrínsecamente imposibles de responder.

Alguien afirma: las alucinaciones son inevitables.

Descubrimiento: las ilusiones no son inevitables, ya que los modelos de lenguaje pueden optar por no responder en situaciones de incertidumbre.

Alguien afirma: evitar ilusiones requiere un cierto grado de inteligencia, y esto solo puede ser logrado por modelos grandes.

Descubrimiento: los modelos pequeños tienen más facilidad para entender sus propias limitaciones. Por ejemplo, cuando se les pide que respondan a preguntas en maorí, un modelo pequeño que no entiende maorí puede responder directamente "no sé", mientras que un modelo que conoce algo de maorí debe determinar su nivel de confianza. Como se discute en el artículo, la cantidad de cálculo necesaria para la "calibración" es mucho menor que la necesaria para mantener la precisión.

Alguien afirma: las alucinaciones son un defecto misterioso de los modelos de lenguaje modernos.

Descubrimiento: podemos entender los mecanismos estadísticos que producen las alucinaciones y obtienen recompensas en la evaluación.

Alguien afirma: para medir las ilusiones, solo necesitamos una buena evaluación de ilusiones.

Descubrimiento: Ya se han publicado algunas evaluaciones de alucinaciones por parte de investigadores. Sin embargo, una buena evaluación de alucinaciones tiene casi ningún efecto en comparación con cientos de evaluaciones tradicionales basadas en la precisión, que castigan la humildad y recompensan la conjetura. Por el contrario, todos los principales indicadores de evaluación necesitan ser rediseñados para recompensar la expresión de incertidumbre.

OpenAI declaró: "Nuestro modelo más reciente tiene una tasa de alucinación más baja, y continuaremos esforzándonos por reducir aún más la tasa de error de confianza en las salidas del modelo de lenguaje."

Por cierto, según un informe de TechCrunch, OpenAI está reestructurando su equipo de Comportamiento del Modelo, un pequeño pero influyente grupo de investigadores que determina cómo interactúan los modelos de IA de la compañía con las personas. Ahora, el equipo informará al supervisor de entrenamiento posterior de OpenAI, Max Schwarzer.

La fundadora y responsable del equipo, Joanne Jang, lanzará un nuevo proyecto en la empresa, llamado oai Labs. Según su tuit: «Este es un equipo orientado a la investigación, enfocado en inventar y diseñar nuevos prototipos de interfaz para la colaboración entre personas y la IA.»

GPT-0.58%
WHY-3.02%
MAX-0.56%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)