Noticias

Meta Spirit LM, un modelo multimodal capaz de trabajar con texto y voz en entradas y salidas

Publicado el

21 octubre, 2024

por

Meta Spirit LM, un modelo multimodal capaz de trabajar con texto y voz en entradas y salidas

Meta ha lanzado su primer modelo de lenguaje multimodal open source capaz de integrar tanto texto como voz, y trabajar con ellos, tanto en entradas como en salidas (respuestas). Se trata de Spirit LM, y ha sido diseñado por el equipo de Investigación en IA fundamental de Meta. Su principal objetivo es superar las limitaciones de las experiencias de voz mediante IA existentes, ofreciendo una generación de habla más expresiva y natural, además de aprender tareas de áreas como el reconocimiento automático de voz (ASR), el paso de texto a voz (TTS) y la clasificación del habla.

El modelo está solo disponible para usos no comerciales, ya que su licencia, FAIR Noncommercial Research, da derecho a sus usuarios a utilizar el modelo, así como a reproducirlo, modificarlo y crear derivados, pero únicamente con fines no comerciales. Y cualquier distribución de los derivados o modelos debe también cumplir con las restricciones de esta licencia.

La mejora en cuanto al tratamiento de la voz que hacen los modelos de IA convencionales que aporta Spirit LM es la incorporación a la voz de tokens de estilo, fonética y tono. Sus creadores quieren conseguir superar las limitaciones de la forma de trabajar del resto de modelos, que se basan en el reconocimiento automático de la voz para procesar las entradas de voz antes de sintetizarlo con un modelo de lenguaje y convertirlo después a voz con técnicas de texto a voz. Este proceso ha ganado en eficacia, pero a costa de sacrificar el tono y la emoción de la voz humana.

Spirit LM se ha lanzado con dos versiones: Spirit LM Base, que usa tokens fonéticos para procesar y generar la voz; y Spirit LM Expressive, que incluye tokens adicionales para el tono y el estilo y que por tanto permite capturar tonos emocionales más matizados, como el nerviosismo o la tristeza, y reflejarlos en la voz que se genere.

Ambas versiones se han entrenado con conjuntos de datos que combinan voz y texto, lo que permite que el modelo realice tareas transmodales, como el paso de voz a texto (y viceversa), manteniendo la expresividad natural de la voz en sus salidas y respuestas.

Al estar destinado sobre todo a investigación, Meta espera que Spirit LM animará a la comunidad investigadora, por su carácter abierto, a explorar nuevos métodos para integrar la voz y el texto en los sistemas de Inteligencia Artificial. Entre sus posibles aplicaciones están el reconocimiento automático del habla, el paso de texto a voz, y la categorización del lenguaje en función de su contenido o tono emocional.

Relacionados:Meta modelo de lenguaje modelo multimodal Spirit LM

A continuación

Granite 3.0, la nueva generación de modelos de Inteligencia Artificial para empresas de IBM

No te pierdas

Western Digital pierde una demanda por violación de patentes mientras se separa de Sandisk

Celia Valdeolmillos

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Salesforce: las preocupaciones sobre la seguridad y los datos frenan la adopción de la IA

NoticiasHace 7 días

Salesforce: las preocupaciones sobre la seguridad y los datos frenan la adopción de la IA

Huawei renueva su gama de sistemas de almacenamiento all-flash OceanStor Dorado

NoticiasHace 6 días

Huawei renueva su gama de sistemas de almacenamiento all-flash OceanStor Dorado

NoticiasHace 7 días

SUSE actualiza sus soluciones para Edge con soporte extendido

NoticiasHace 5 días

SAP se convierte en la compañía de mayor valoración de Europa, adelantando a ASML

MuyComputerPRO

Meta Spirit LM, un modelo multimodal capaz de trabajar con texto y voz en entradas y salidas

Noticias

Meta Spirit LM, un modelo multimodal capaz de trabajar con texto y voz en entradas y salidas

“En el futuro, todas las empresas serán organizaciones con inteligencia artificial”

Granite 3.0, la nueva generación de modelos de Inteligencia Artificial para empresas de IBM

Ubuntu cumple 20 años como referente del escritorio Linux… y mucho más