Conecta con nosotros

Noticias

Meta Spirit LM, un modelo multimodal capaz de trabajar con texto y voz en entradas y salidas

Publicado el

Meta Spirit LM, un modelo multimodal capaz de trabajar con texto y voz en entradas y salidas

Meta ha lanzado su primer modelo de lenguaje multimodal open source capaz de integrar tanto texto como voz, y trabajar con ellos, tanto en entradas como en salidas (respuestas). Se trata de Spirit LM, y ha sido diseñado por el equipo de Investigación en IA fundamental de Meta. Su principal objetivo es superar las limitaciones de las experiencias de voz mediante IA existentes, ofreciendo una generación de habla más expresiva y natural, además de aprender tareas de áreas como el reconocimiento automático de voz (ASR), el paso de texto a voz (TTS) y la clasificación del habla.

El modelo está solo disponible para usos no comerciales, ya que su licencia, FAIR Noncommercial Research, da derecho a sus usuarios a utilizar el modelo, así como a reproducirlo, modificarlo y crear derivados, pero únicamente con fines no comerciales. Y cualquier distribución de los derivados o modelos debe también cumplir con las restricciones de esta licencia.

La mejora en cuanto al tratamiento de la voz que hacen los modelos de IA convencionales que aporta Spirit LM es la incorporación a la voz de tokens de estilo, fonética y tono. Sus creadores quieren conseguir superar las limitaciones de la forma de trabajar del resto de modelos, que se basan en el reconocimiento automático de la voz para procesar las entradas de voz antes de sintetizarlo con un modelo de lenguaje y convertirlo después a voz con técnicas de texto a voz. Este proceso ha ganado en eficacia, pero a costa de sacrificar el tono y la emoción de la voz humana.

Spirit LM se ha lanzado con dos versiones: Spirit LM Base, que usa tokens fonéticos para procesar y generar la voz; y Spirit LM Expressive, que incluye tokens adicionales para el tono y el estilo y que por tanto permite capturar tonos emocionales más matizados, como el nerviosismo o la tristeza, y reflejarlos en la voz que se genere.

Ambas versiones se han entrenado con conjuntos de datos que combinan voz y texto, lo que permite que el modelo realice tareas transmodales, como el paso de voz a texto (y viceversa), manteniendo la expresividad natural de la voz en sus salidas y respuestas.

Al estar destinado sobre todo a investigación, Meta espera que Spirit LM animará a la comunidad investigadora, por su carácter abierto, a explorar nuevos métodos para integrar la voz y el texto en los sistemas de Inteligencia Artificial. Entre sus posibles aplicaciones están el reconocimiento automático del habla, el paso de texto a voz, y la categorización del lenguaje en función de su contenido o tono emocional.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído