Según The Information, la compañía reorganizó varios equipos de ingeniería, producto e investigación para mejorar su tecnología de voz, después de que evaluaciones internas revelaran que los modelos de audio de OpenAI se quedan atrás de sus sistemas basados en texto, tanto en precisión como en capacidad de respuesta.
Si bien los modelos de texto de OpenAI se han convertido en sinónimo de inteligencia artificial de vanguardia, sus interacciones habladas a través de ChatGPT han tenido dificultadores para sentirse fluidas o fiables.
Esta brecha es importante porque el primer producto de hardware de OpenAI, previsto para 2026, está diseñado para priorizar principalmente el audio.
En lugar de depender de pantallas, el dispositivo supuestamente está diseñado para permitir a los usuarios interactuar de forma natural a través del habla, con la IA respondiendo en tiempo real, gestionando las interrupciones e incluso hablando simultáneamente con el usuario.
Internamente, OpenAI cree que este tipo de flujo conversacional es esencial para que la IA se sienta menos como un software y más como un acompañante.
Según se informa, la compañía está desarrollando una nueva arquitectura de modelo de audio que produce respuestas más emotivas y naturales, a la vez que ofrece respuestas más profundas y precisas.
Se espera que el modelo se lance en el primer trimestre de 2026 y respaldaría la expansión de OpenAI hacia las experiencias basadas en audio.
Esta estrategia sitúa a OpenAI al nivel de rivales como Google, Apple, Amazon y Meta, todos ellos explorando dispositivos post-smartphone basados en IA.
La diferencia, sin embargo, radica en la ambición de OpenAI de simplificar las cosas.
Jony Ive, exjefe de diseño de Apple, quien colabora con OpenAI tras la adquisición multimillonaria de su startup io, argumentó que los dispositivos sin pantalla podrían ayudar a reducir la adicción digital en lugar de intensificarla.
Aun así, existe un obstáculo que superar, ya que muchos usuarios de ChatGPT rara vez hablan con el chatbot, ya sea porque desconocen la función o porque no les convence su rendimiento actual.