Voice Engine: Aplicación de voz a texto de OpenAI
Es posible clonar la voz con ChatGPT de forma realista

OpenAI ha lanzado su innovadora tecnología Voice Engine, que puede clonar cualquier voz con solo una corta muestra de audio. Desarrollada a finales de 2022, ha sido parte de la tecnología de voz de la API de conversión de texto a voz, así como ChatGPT Voice y Read Aloud. Con una muestra de voz y un poco de texto, Voice Engine puede generar habla con sonido natural. Aunque su uso está restringido por el momento debido al gran potencial de uso indebido de la voz sintética, conocer sus avances y posibilidades es asombroso.
Voice Engine: La nueva función de OpenAI
Los beneficios de esta tecnología son abundantes y diversificados. Desde la asistencia a la lectura para aquellos que tienen dificultades de visión o que aún no pueden leer, hasta aplicaciones prácticas en el mundo de la traducción, Voice Engine está abriendo nuevas posibilidades con tecnología mejorada.
Dentro de sus usos prácticos, permite a las personas escuchar texto con una voz más natural y amigable, facilitando el acceso a la información. Además, en el ámbito de la traducción, Voice Engine puede traducir y doblar a otros idiomas, conservando incluso el acento original del hablante.
Se espera que esta tecnología ayude a mejorar y ampliar las habilidades comunicativas en medios de comunicación e información, facilitando la traducción automática de comerciales, noticieros, cursos, películas, etc. en donde sea posible seleccionar el lenguaje nativo y tener acceso a cualquier dato en el lenguaje nativo del oyente.

Detalles técnicos de Voice Engine
Voice Engine, la última innovación de OpenAI, se basa en modelos de inteligencia artificial entrenados con grandes conjuntos de datos de voz humana. Utilizando técnicas avanzadas de procesamiento de lenguaje natural y redes neuronales, esta IA es capaz de analizar y comprender patrones complejos en el habla humana.
El proceso de clonación de voz comienza con la recopilación de una muestra de audio de tan solo 15 segundos del hablante original. Esta muestra se utiliza para entrenar el modelo, que luego es capaz de generar habla sintética que imita la voz del hablante con sorprendente precisión.
Para alcanzar resultados realistas, Voice Engine no solo reproduce el timbre y la entonación de la voz original, sino que también puede conservar características emocionales y acentos específicos del hablante.
Esto se logra mediante la incorporación de técnicas de aprendizaje profundo que permiten al modelo capturar y replicar incluso los matices más sutiles del habla humana.
Por otro lado, en términos de rendimiento, Voice Engine ha demostrado ser altamente eficiente, con tiempos de generación de voz que van desde unos pocos segundos hasta unos minutos, dependiendo de la complejidad del texto y la longitud del audio de entrada.
Sin embargo, a pesar de sus impresionantes capacidades, Voice Engine todavía enfrenta desafíos técnicos, como la mejora de la calidad del habla sintética en diferentes idiomas y la reducción del sesgo inherente en la generación de voz.
La muestra compartida con OpenAi consta de dos audios de referencia y las diferentes muestras de audio generadas por la IA generativa aplicada de texto a voz.
Referencia 1
Referencia 2
Francés
Texto: L’ amitié es un tesoro universal. D’où que nous venons, elle apporte joie, soutien et rires dans nos vies. Les vrais amis se tiennent toujours à nos côtés: contra vents et marées, ils partagent nos joies et soignent nos chagrins. Chérissons les gravámenes d’amitié qui nous unissent, par delà la diversité de nos langues ou de nos cultures.
Alemán
Español
Texto: La amistad es un tesoro universal, aporta alegría, apoyo y risas a nuestras vidas sin importar donde estemos en el mundo. Los verdaderos amigos están con nosotros, en las buenas y en las malas, compartiendo nuestras alegrías y aliviando nuestras penas. Celebremos los lazos de amistad que nos conectan a todos a través de cada idioma y cultura.
No obstante, se realizaron pruebas también en Japonés, mandarín, portugués, swahili y sheng. Como se puede observar en los audios proporcionados por OpenAi, aún queda mucho por mejorar, pero es un avance impresionante que permite probar un poco de lo que será el futuro de las comunicaciones por audio. A medida que se van perfeccionando estas tecnologías surgen más dudas sobre los posibles usos malintencionados.
Peligros en manos equivocadas
Como con cualquier avance tecnológico, existen peligros potenciales en manos equivocadas. Voice Engine podría ser utilizado para crear deepfakes (videos en donde se usa la IA para recrear con la imagen de una persona famosa transmitiendo información) y suplantaciones de identidad (podría dar origen a situaciones peligrosas como robo, secuestro, etc.), lo que podría tener consecuencias devastadoras.
Además, con tan solo el audio de una historia de Instagram, alguien podría clonar su voz y manipular información de manera engañosa. Es importante reconocer estos riesgos y tomar medidas para mitigar su impacto.
Restricciones
Dada la sensibilidad de esta tecnología, OpenAI ha impuesto estrictas restricciones para su uso. Se requiere el consentimiento explícito e informado del hablante original, y está prohibido suplantar a otra persona u organización sin permiso legal. Además, OpenAI no permite que los desarrolladores creen herramientas para que los usuarios individuales generen sus propias voces, con el fin de evitar el uso indebido de la tecnología.
En resumen, OpenAI está liderando el camino hacia una nueva era de comunicación con su tecnología Voice Engine, que permite convertir texto en notas de voz con una calidad sorprendente. Aunque ofrece beneficios significativos, como facilitar el acceso a la información y mejorar la traducción, también plantea desafíos en términos de seguridad y privacidad. Es crucial abordar estos problemas de manera responsable para garantizar que esta tecnología beneficie a la sociedad en su conjunto. OpenAI es la empresa que se encuentra frente a la vanguardia de lo último en tecnología de IA para ofrecer resultados convincentes y realistas, es fácil imaginar el futuro con modelos semejantes al robot Figure01 capaces de interpretar y abordar conversaciones