OpenAI anunció el lanzamiento de su modelo de voz a voz más sofisticado hasta la fecha, llamado gpt-realtime, diseñado para mejorar la interacción en tareas como atención al cliente, asistencia personal y educación. La compañía destacó que este avance responde a una colaboración estrecha con desarrolladores y clientes, con el objetivo de crear agentes de voz más precisos, naturales y expresivos.
El nuevo modelo se integra con una API en tiempo real que ya está disponible para el público general, tras haber sido presentada en versión beta en octubre. Esta API permite procesar y generar audio directamente, sin necesidad de encadenar modelos de voz a texto y de texto a voz, lo que reduce la latencia y conserva los matices del habla.
Entre las funciones añadidas se encuentran la compatibilidad con servidores MCP remotos, entradas de imágenes y llamadas telefónicas mediante el Protocolo de Inicio de Sesión (SIP). Estas herramientas amplían el contexto y las capacidades de los agentes de voz, facilitando experiencias multimodales de baja latencia en aplicaciones desarrolladas por terceros.
Lea también: OpenAI apuesta por la accesibilidad tecnológica con su nuevo plan ChatGPT Go
Expertos del sector han señalado que OpenAI está apostando por empoderar a los desarrolladores, más allá de competir directamente en el mercado de consumo. Matt Hasan, director ejecutivo de aiRESULTS, afirmó que la empresa está enfocada en fomentar la creación de aplicaciones innovadoras. Por su parte, Olivia Moore, socia de la firma de capital de riesgo Andreessen Horowitz, destacó que la voz se ha convertido en uno de los recursos más potentes para las empresas de inteligencia artificial, al ser una forma de comunicación rica en información y ahora programable gracias a los avances tecnológicos.
Con esta iniciativa, OpenAI refuerza su compromiso por hacer que la inteligencia artificial sea más accesible, funcional y cercana a las necesidades reales de los usuarios y desarrolladores.