Los nuevos modelos de voz Realtime de OpenAI: GPT-Realtime-2, traducción en vivo y transcripción en streaming

Sat, 09 May 2026 10:58:47 +0800

El 7 de mayo de 2026, OpenAI presentó una nueva generación de modelos de voz para la Realtime API. El objetivo no es solo que la IA suene más natural, sino que los agentes de voz puedan entender, razonar, llamar herramientas, traducir y transcribir durante una conversación en vivo.

La actualización incluye tres modelos:

GPT-Realtime-2: el modelo principal para agentes de voz en tiempo real, con mejor razonamiento, llamadas a herramientas y contexto más largo.
GPT-Realtime-Translate: un modelo de traducción de voz en vivo que admite más de 70 idiomas de entrada y 13 idiomas de salida.
GPT-Realtime-Whisper: un modelo de voz a texto en streaming y baja latencia para subtítulos, notas de reuniones y flujos de trabajo en tiempo real.

Si los primeros asistentes de voz eran más bien “pregunta una vez, responde una vez”, esta actualización se acerca más a una interfaz de voz que escucha y actúa al mismo tiempo.

GPT-Realtime-2: el modelo principal para agentes de voz

GPT-Realtime-2 está diseñado para interacciones de voz en vivo. No solo responde preguntas; debe mantener el contexto mientras el usuario habla, se corrige, interrumpe o añade restricciones, y llamar herramientas cuando sea necesario.

Las capacidades destacadas oficialmente incluyen:

Frases breves antes de la respuesta, como “déjame comprobarlo”, para que el usuario sepa que el sistema está trabajando.
Llamadas paralelas a herramientas para calendarios, búsqueda, pedidos, soporte y otros flujos con varias herramientas.
Recuperación más natural cuando algo falla.
Ventana de contexto ampliada de 32K a 128K para conversaciones más largas y tareas más complejas.
Mejor retención de terminología especializada, nombres propios y vocabulario médico.
Tono y entrega más controlables, por ejemplo respuestas tranquilas, empáticas, confirmatorias o enérgicas.
reasoning effort ajustable: minimal, low, medium, high y xhigh, con low como valor predeterminado.

Esto permite usar agentes de voz en productos más exigentes, no solo en preguntas y respuestas simples. Un agente de soporte puede escuchar mientras consulta un pedido; una app de viajes puede sugerir pasos tras un cambio de vuelo; una app inmobiliaria puede filtrar viviendas y programar visitas a partir de requisitos hablados.

Traducción en vivo para productos de voz multilingües

GPT-Realtime-Translate está pensado para traducción de voz en tiempo real. Cada persona puede hablar en su idioma, mientras la otra escucha la traducción y ve la transcripción en vivo.

Los casos de uso son claros:

Atención al cliente multilingüe.
Ventas internacionales y preventa.
Educación online y eventos en vivo.
Reuniones internacionales y presentaciones.
Localización de contenido para plataformas de video y creadores.

La dificultad de la traducción en vivo no es solo traducir bien. También requiere baja latencia, pausas naturales, conservación del tono, adaptación a acentos y manejo de vocabulario especializado. OpenAI enfatiza conversaciones entre idiomas que se sientan más naturales, en lugar de esperar a que termine un bloque completo antes de traducir.

Transcripción en streaming: la voz entra antes en el flujo de trabajo

GPT-Realtime-Whisper es el nuevo modelo de voz a texto en streaming. Su valor está en convertir la voz en texto utilizable mientras ocurre, no después de que termina una grabación.

Aplicaciones comunes:

Subtítulos en vivo para reuniones.
Subtítulos para clases y emisiones.
Notas de reunión en tiempo real.
Entrada de dictado continua para agentes de voz.
Flujos posteriores en soporte, salud, contratación, ventas y otros escenarios de voz frecuentes.

Para un producto, la transcripción en streaming reduce el tiempo entre lo hablado y el texto accionable. Los subtítulos aparecen antes, las notas se generan durante la conversación y procesos como resúmenes, extracción de tareas o actualización del CRM pueden empezar antes.

Precios y disponibilidad

Los tres modelos ya están disponibles en la Realtime API. Los precios oficiales son:

Modelo	Precio
`GPT-Realtime-2`	Entrada de audio $32 / 1M tokens, entrada en caché $0.40 / 1M tokens, salida de audio $64 / 1M tokens
`GPT-Realtime-Translate`	$0.034 / minuto
`GPT-Realtime-Whisper`	$0.017 / minuto

OpenAI también indica que la Realtime API admite EU Data Residency y está cubierta por sus compromisos de privacidad empresarial. Para empresas europeas o productos con requisitos de residencia de datos, es un punto que conviene evaluar por separado.

Qué significa para los desarrolladores

El cambio principal es que la voz empieza a pasar de ser una capa de entrada y salida a ser una capa de interacción del producto.

Muchas funciones de voz anteriores convertían voz a texto y luego convertían la respuesta textual de nuevo a voz. La parte difícil está en el medio: entender la intención, gestionar interrupciones, mantener contexto, llamar herramientas, explicar qué está haciendo el sistema y recuperarse con naturalidad cuando algo falla.

GPT-Realtime-2 intenta llevar más de esa capacidad directamente al modelo de voz en tiempo real. Para los desarrolladores, la pregunta no es solo la calidad de una respuesta, sino si el modelo puede sostener conversaciones largas y tareas de varios pasos.

Productos especialmente interesantes para probar:

Agentes de voz para atención al cliente.
Asistentes de voz en autos y móviles.
Servicios de viajes, reservas, inmobiliaria, finanzas y otros donde se conversa mientras se consulta información.
Herramientas de reuniones multilingües y comunicación internacional.
Subtítulos en vivo, notas de reuniones y sistemas de control de calidad de llamadas.

Seguridad y aviso al usuario

OpenAI afirma que la Realtime API incluye varias capas de seguridad, como clasificadores activos sobre sesiones y la posibilidad de detener conversaciones que violen políticas. Los desarrolladores también pueden añadir sus propias barreras con Agents SDK.

Un requisito fácil de pasar por alto es informar claramente cuando el usuario final interactúa con IA, salvo que el contexto ya lo haga evidente.

Esto importa en soporte, ventas, educación, salud y escenarios similares. Cuanto más natural sea la voz, más importantes son los límites del producto: el usuario debe saber que habla con IA y entender qué acciones pueden grabarse, transcribirse o activar herramientas.

Resumen

La actualización de Realtime API de OpenAI lleva la voz en vivo de “puede escuchar y hablar” hacia “puede escuchar mientras trabaja en tareas”.

GPT-Realtime-2 cubre agentes de voz más complejos, GPT-Realtime-Translate cubre comunicación multilingüe en vivo y GPT-Realtime-Whisper cubre transcripción de baja latencia. Juntos cubren tres capacidades básicas de muchos productos de voz: conversación, traducción y transcripción.

Si estás construyendo productos de soporte, automóvil, reuniones, educación, comunicación internacional o asistentes de voz móviles, vale la pena probar esta actualización. Lo importante no es solo si el modelo suena natural, sino cómo se comporta en conversaciones largas, interrupciones, llamadas a herramientas, recuperación de fallos y control de costes.

Referencia:

OpenAI: Advancing voice intelligence with new models in the API

Voice Models on KnightLi Blog