Noticias
Meta trabaja en modelos de lenguaje pequeños para smartphones y dispositivos móviles
Meta, la compañía matriz de Facebook, Instagram y Whatsapp, está desarrollando modelos de lenguaje pequeños compatibles con smartphones y otros dispositivos móviles, con la intención de ejecutarlo en aplicaciones instaladas en ellos. En su creación, además de centrarse en el equipo en el que se utilizará, están trabajando para limitar su consumo de energía durante las tareas de inferencia. Así lo manifiesta un estudio publicado por un grupo de investigadores de la compañía.
A diferencia de los modelos grandes de lenguaje, los considerados pequeños tienen una cantidad de parámetros, que son los elementos que ayudan a los modelos a decidir entre las distintas respuestas que puede dar a las preguntas, notablemente menor. Cuantos más parámetros tienen, mayor infraestructura de computación necesitan para funcionar. De ahí la conveniencia de desarrollar modelos más pequeños para equipos móviles.
Mistral, por ejemplo, está desarrollando modelos pequeños de lenguaje con algo más de tres mil millones de parámetros. Microsoft, con Phi-2, también se ha adentrado en este terreno. Pero en Meta creen que se pueden desarrollar modelos eficaces con menos de mil millones. Con ellos se podría extender la adopción de la IA generativa a casos de uso que implicasen el uso de smartphones y tablets, cuya potencia de computación es muchísimo menor que la de los servidores de los centros de datos.
Según el estudio publicado por los investigadores de Meta, han llevado a cabo diversos experimentos con modelos de distintas arquitecturas y 125 y 300 millones de parámetros. De ellos han concluido que los modelos que dan más prioridad a la profundidad que a la amplitud mejoran su rendimiento general. Se trata de un hecho contrario a las creencias más extendidas en relación con los modelos de lenguaje, que se centran en destacar el papel de los datos y de la cantidad de parámetros para determinar la calidad del modelo.
Los investigadores señalan a la arquitectura del modelo como una de las claves para el funcionamiento adecuado de los modelos. de lenguaje que tienen menos de mil millones de parámetros. Así, en su opinión, los modelos de 125 y 350 millones de parámetros, a los que llaman MobileLLM (modelos grandes de lenguaje móviles), son igual de eficaces que los modelos grandes de lenguaje, como Llama 2, en la gestión de conversaciones, así como en tareas que impliquen llamadas a APIs. Además, destacan las capacidades de los modelos pequeños en casos de uso comunes realizados en dispositivos.
-
OpiniónHace 6 días
10 predicciones para los proveedores de servicios gestionados en 2025
-
NoticiasHace 7 días
HP amplía su gama de impresoras Envy y lanza soluciones de impresión con IA
-
NoticiasHace 6 días
La Comisión Europea multa a Meta con 798 millones por perjudicar a la competencia de Marketplace
-
NoticiasHace 6 días
AMD despedirá al 4% de su plantilla mientras se centra en IA y centros de datos