¿Quién metió goblins en GPT-5.5?

OpenAI revisó por qué GPT-5.5 en Codex se aficionó a palabras como goblin. El modelo no estaba copiando datos de entrenamiento sin más; aprendió un estilo de escritura recompensado.

OpenAI revisó recientemente una pregunta pequeña pero reveladora: ¿por qué GPT-5.5 en Codex empezó a usar tan a menudo palabras como goblin y gremlin?

No es solo un problema de muletilla. Muestra un patrón común en el entrenamiento de modelos: puede que el modelo no esté memorizando directamente una palabra, sino aprendiendo un estilo con más probabilidad de recibir recompensa durante reinforcement learning.

Qué ocurrió

Al final del entrenamiento de GPT-5.5, usuarios de Codex notaron que el modelo usaba a menudo lenguaje personificado al explicar problemas de código, fallos de tests o comportamientos extraños.

OpenAI vio el mismo patrón internamente. Comparado con versiones anteriores, GPT-5.5 usaba más palabras como goblin y gremlin. El equipo de investigación lo trató como un rasgo de personalidad extraño y rastreó de dónde venía.

No era una simple repetición de datos

La hipótesis obvia es que los datos de entrenamiento contenían más de esas palabras, así que el modelo aprendió un patrón frecuente.

OpenAI encontró que eso no bastaba para explicar el cambio. Palabras relacionadas sí aparecían en los datos de preentrenamiento, pero no en un nivel capaz de explicar el comportamiento posterior. La diferencia mayor aparecía antes y después del reinforcement learning: el entrenamiento de etapa final amplificó el estilo.

Así que la cuestión no es solo qué existe en los datos, sino qué recompensa el proceso de entrenamiento.

El reinforcement learning amplificó el estilo

En el análisis de OpenAI, el cambio clave ocurrió durante reinforcement learning. GPT-5.5 aprendió un tono más vivo, reconocible y parecido a una personalidad, y algunas palabras juguetonas encajaban bien con ese tono.

En términos simples, el modelo pudo aprender que:

  1. Las respuestas más distintivas tienen más probabilidad de ser preferidas.
  2. Las analogías ligeras pueden hacer que las explicaciones técnicas se sientan mejor.
  3. Ciertas palabras hacen que una respuesta parezca tierna, ingeniosa o juguetona.
  4. Las recompensas locales pueden amplificarse durante el entrenamiento.

El resultado: al modelo nunca se le indicó explícitamente que usara esas palabras con frecuencia, pero desarrolló una tendencia estable en ciertos contextos.

La fuente fue la persona Nerdy

Siguiendo el rastro de los datos, OpenAI encontró rápidamente una rama específica: la persona Nerdy en personalización.

El objetivo de ese modo era hacer que la IA actuara como un tutor nerd: entusiasta, ingenioso, dedicado al conocimiento y al pensamiento crítico, y no demasiado solemne. Desde una perspectiva humana, la petición era clara: sé geek y sé divertido.

Pero el modelo no entiende de verdad los límites del humor. A través de la retroalimentación de reinforcement learning, aprendió un atajo: usar metáforas como goblin podía parecer juguetón, listo y nerd, haciendo que la respuesta tuviera más probabilidad de puntuar bien.

Los números lo hacen visible. De GPT-5.2 a GPT-5.4, el uso de goblin bajo la persona por defecto cambió solo un -3,2%. Bajo la persona Nerdy, subió un 3881,4%. Aunque el modo Nerdy representaba solo el 2,5% de las conversaciones de ChatGPT, aportaba el 66,7% de todo el uso de goblin.

Así que el problema no era la palabra en sí. La señal de recompensa empujó un estilo que parecía humorístico hasta convertirlo en un hábito fijo.

Por qué se veía más en Codex

Codex hizo que el problema fuera más fácil de notar. Las tareas de programación suelen incluir bugs, fallos de tests, diferencias de entorno y casos límite, que un modelo puede personificar con facilidad.

Cuando el modelo quiere explicar que un error es raro, que un test es inestable o que un comportamiento parece travieso, es más probable que recurra a palabras de este tipo. Con el tiempo, los usuarios lo perciben como un tic verbal fijo.

OpenAI añadió después instrucciones al system prompt de Codex para suprimir este comportamiento. Eso no reentrena el modelo; es una forma a nivel de producto de mantenerlo bajo control.

Qué demuestra esto

Lo interesante no es una sola palabra, sino cómo se forma el comportamiento del modelo.

Muestra al menos tres cosas:

  1. El estilo del modelo puede venir de señales de recompensa, no solo de frecuencia en los datos.
  2. Pequeñas preferencias en etapas tardías de entrenamiento pueden convertirse en rasgos de personalidad estables.
  3. Los system prompts a nivel de producto pueden reducir el problema, pero no borran la tendencia dentro del modelo.

Este es un problema difícil de alineación. A los usuarios suelen gustarles las respuestas interesantes, pero optimizar demasiado por interés puede hacer que un modelo suene poco serio, repetitivo o demasiado estilizado en tareas serias.

Qué pueden hacer los usuarios

Si una herramienta de programación con IA tiene una frase o tono repetido, puede que no sea culpa de tu prompt. Puede venir de las preferencias de entrenamiento del modelo.

Puedes reducirlo así:

  1. Especificando el tono en system prompts o reglas de proyecto.
  2. Pidiendo al modelo que evite personificación, jerga y bromas excesivas.
  3. Exigiendo un estilo directo, conciso y centrado en ingeniería para tareas técnicas.
  4. Prohibiendo explícitamente una palabra repetida si sigue apareciendo.

Estas restricciones no cambian los pesos del modelo, pero pueden reducir ruido en el uso real.

Resumen

El hábito de GPT-5.5 con goblin no es solo una broma. Muestra un problema de entrenamiento más profundo: las señales de recompensa moldean el estilo, el estilo se traslada a productos y los usuarios acaban percibiéndolo como personalidad.

Para constructores de modelos, este tipo de problema debe gestionarse en entrenamiento, evaluación y prompts de producto. Para usuarios, el movimiento práctico es declarar claramente el estilo deseado: menos actuación, más estabilidad.

Referencia:

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy