Voice Engine: Aplicación de voz a texto de OpenAI

Es posible clonar la voz con ChatGPT de forma realista

Sandy Rodríguez1 de abril de 2024

684 4 minutos de lectura

Robot IA,. Representación de Voice Enginer — Midjourney

OpenAI ha lanzado su innovadora tecnología Voice Engine, que puede clonar cualquier voz con solo una corta muestra de audio. Desarrollada a finales de 2022, ha sido parte de la tecnología de voz de la API de conversión de texto a voz, así como ChatGPT Voice y Read Aloud. Con una muestra de voz y un poco de texto, Voice Engine puede generar habla con sonido natural. Aunque su uso está restringido por el momento debido al gran potencial de uso indebido de la voz sintética, conocer sus avances y posibilidades es asombroso.

Table of Contents

Voice Engine: La nueva función de OpenAI

Los beneficios de esta tecnología son abundantes y diversificados. Desde la asistencia a la lectura para aquellos que tienen dificultades de visión o que aún no pueden leer, hasta aplicaciones prácticas en el mundo de la traducción, Voice Engine está abriendo nuevas posibilidades con tecnología mejorada.

Dentro de sus usos prácticos, permite a las personas escuchar texto con una voz más natural y amigable, facilitando el acceso a la información. Además, en el ámbito de la traducción, Voice Engine puede traducir y doblar a otros idiomas, conservando incluso el acento original del hablante.

Se espera que esta tecnología ayude a mejorar y ampliar las habilidades comunicativas en medios de comunicación e información, facilitando la traducción automática de comerciales, noticieros, cursos, películas, etc. en donde sea posible seleccionar el lenguaje nativo y tener acceso a cualquier dato en el lenguaje nativo del oyente.

Detalles técnicos de Voice Engine

Voice Engine, la última innovación de OpenAI, se basa en modelos de inteligencia artificial entrenados con grandes conjuntos de datos de voz humana. Utilizando técnicas avanzadas de procesamiento de lenguaje natural y redes neuronales, esta IA es capaz de analizar y comprender patrones complejos en el habla humana.

El proceso de clonación de voz comienza con la recopilación de una muestra de audio de tan solo 15 segundos del hablante original. Esta muestra se utiliza para entrenar el modelo, que luego es capaz de generar habla sintética que imita la voz del hablante con sorprendente precisión.

Para alcanzar resultados realistas, Voice Engine no solo reproduce el timbre y la entonación de la voz original, sino que también puede conservar características emocionales y acentos específicos del hablante.

Esto se logra mediante la incorporación de técnicas de aprendizaje profundo que permiten al modelo capturar y replicar incluso los matices más sutiles del habla humana.

Por otro lado, en términos de rendimiento, Voice Engine ha demostrado ser altamente eficiente, con tiempos de generación de voz que van desde unos pocos segundos hasta unos minutos, dependiendo de la complejidad del texto y la longitud del audio de entrada.

Sin embargo, a pesar de sus impresionantes capacidades, Voice Engine todavía enfrenta desafíos técnicos, como la mejora de la calidad del habla sintética en diferentes idiomas y la reducción del sesgo inherente en la generación de voz.

La muestra compartida con OpenAi consta de dos audios de referencia y las diferentes muestras de audio generadas por la IA generativa aplicada de texto a voz.

Referencia 1

Audio de referencia en Inglés

Audio generado de texto explicando un tema de Biología

Texto a voz hablando sobre literatura

Referencia 2

Audio de referencia en Español

Francés

Texto a voz en Francés

Texto: L’ amitié es un tesoro universal. D’où que nous venons, elle apporte joie, soutien et rires dans nos vies. Les vrais amis se tiennent toujours à nos côtés: contra vents et marées, ils partagent nos joies et soignent nos chagrins. Chérissons les gravámenes d’amitié qui nous unissent, par delà la diversité de nos langues ou de nos cultures.

Alemán

Audio generado en Alemán

Español

Texto: La amistad es un tesoro universal, aporta alegría, apoyo y risas a nuestras vidas sin importar donde estemos en el mundo. Los verdaderos amigos están con nosotros, en las buenas y en las malas, compartiendo nuestras alegrías y aliviando nuestras penas. Celebremos los lazos de amistad que nos conectan a todos a través de cada idioma y cultura.

Audio generado en Español

No obstante, se realizaron pruebas también en Japonés, mandarín, portugués, swahili y sheng. Como se puede observar en los audios proporcionados por OpenAi, aún queda mucho por mejorar, pero es un avance impresionante que permite probar un poco de lo que será el futuro de las comunicaciones por audio. A medida que se van perfeccionando estas tecnologías surgen más dudas sobre los posibles usos malintencionados.

Peligros en manos equivocadas

Como con cualquier avance tecnológico, existen peligros potenciales en manos equivocadas. Voice Engine podría ser utilizado para crear deepfakes (videos en donde se usa la IA para recrear con la imagen de una persona famosa transmitiendo información) y suplantaciones de identidad (podría dar origen a situaciones peligrosas como robo, secuestro, etc.), lo que podría tener consecuencias devastadoras.

Además, con tan solo el audio de una historia de Instagram, alguien podría clonar su voz y manipular información de manera engañosa. Es importante reconocer estos riesgos y tomar medidas para mitigar su impacto.

Restricciones

Dada la sensibilidad de esta tecnología, OpenAI ha impuesto estrictas restricciones para su uso. Se requiere el consentimiento explícito e informado del hablante original, y está prohibido suplantar a otra persona u organización sin permiso legal. Además, OpenAI no permite que los desarrolladores creen herramientas para que los usuarios individuales generen sus propias voces, con el fin de evitar el uso indebido de la tecnología.

En resumen, OpenAI está liderando el camino hacia una nueva era de comunicación con su tecnología Voice Engine, que permite convertir texto en notas de voz con una calidad sorprendente. Aunque ofrece beneficios significativos, como facilitar el acceso a la información y mejorar la traducción, también plantea desafíos en términos de seguridad y privacidad. Es crucial abordar estos problemas de manera responsable para garantizar que esta tecnología beneficie a la sociedad en su conjunto. OpenAI es la empresa que se encuentra frente a la vanguardia de lo último en tecnología de IA para ofrecer resultados convincentes y realistas, es fácil imaginar el futuro con modelos semejantes al robot Figure01 capaces de interpretar y abordar conversaciones

Etiquetas

Sandy Rodríguez1 de abril de 2024

684 4 minutos de lectura

Voice Engine: Aplicación de voz a texto de OpenAI

Es posible clonar la voz con ChatGPT de forma realista

Voice Engine: La nueva función de OpenAI