Conecta con nosotros

A Fondo

El fin de la era de los modelos de IA gigantes: eficiencia y precisión se imponen al tamaño

Publicado el

El fin de la era de los modelos de IA gigantes: eficiencia y precisión se imponen al tamaño

Los modelos grandes de lenguaje (LLM), motores de numerosos servicios y sistemas de Inteligencia Artificial, permiten a consumidores y empresas acercarse al mundo de la IA, y utilizarla para todo tipo de fines. Especialmente a la IA generativa. Tienen muchas ventajas, pero también no pocos inconvenientes. Entre ellos, el gran consumo de energía necesario para ejecutarlos, la dificultad que hay para entrenarlos y los obstáculos con los que se encuentran los desarrolladores para crearlos. Hay cada vez más dudas sobre su sostenibilidad a medio o largo plazo por estos y otros problemas que plantean.

Así, no son adecuados para todos los casos de uso en los que profesionales y empresas, sobre todo, necesitan o desean utiliza la Inteligencia Artificial. Es necesario explorar otras soluciones, sobre todo para sectores concretos, como los modelos de IA más pequeños. Estos modelos suelen desarrollarse para uso en diferentes áreas y equipos de las organizaciones, e incluso en algunos casos, a medida para empresas de cierta envergadura.

Se trata de modelos mucho más pequeños, y más eficientes que los LLM. Se necesitan menos medios para entrenarlos, su consumo es muchísimo menor, y están centrados específicamente en los temas y áreas que busca cada organización, en función de los temas con los que trabaja.

Modelos de IA más pequeños y específicos

Dentro de estos, están empezando a surgir de manera prometedora los conocidos como domain-specific AI models, esto es, los modelos de IA específicos para una materia. Se trata de modelos de IA más pequeños creados de manera específica para distintas áreas de la economía. Como su propio nombre indica, se entrenan con un fin concreto, y con un conjunto de datos elegidos cuidadosamente entre los disponibles para el sector en el que se utilizará el modelo.

Estos modelos se entrenan con datos que se eligen a propósito para que estén preparados para la realización de tareas muy concretas y específicas. De esta manera, ofrecen a sus usuarios unos resultados que destacan por su nivel de precisión, pero también por permitir conseguirlos con unos costes muy ajustados, y tener un consumo mucho más bajo que el de los modelos grandes de lenguaje.

Si se quiere contar con un sistema de IA más potente pero empleando modelos que no sean tan grandes, se puede lograr a través de un enfoque de enjambre utilizando de manera combinada varios de estos modelos. Con este enfoque, los resultados que se obtienen son muy parecidos a los logrados con los modelos de IA más grandes.

Eso sí, en vez de utilizar un solo modelo monolítico, se crea mediante la combinación de modelos más pequeños, de manera que sumen capacidad y posibilidades de respuesta precisa en distintos campos sin los inconvenientes de consumo y entrenamiento de los LLM. Además, la combinación de modelos hace que el resultado sea más transparente y se logre una mayor rapidez a la hora de reentrenar el sistema.

Como paso intermedio entre estos modelos tan concretos y específicos, y los LLM, hay otros modelos de envergadura intermedia, y pensados para que una empresa pueda entrenarlos con sus datos y también personalizarlos para que respondan a sus necesidades. Entre ellos están los que desarrolla el Proyecto InstructLab.

InstructLab, con equipos dedicados al desarrollo de modelos de IA open source, persigue que el desarrollo de modelos de IA sea más abierto y accesible. Pero no solo para los profesionales dedicados a su desarrollo, los científicos de datos, sino para todos los usuarios con conocimientos de desarrollo que quieran participar en el proceso.

Para ello se han centrado en hacer que contribuir a su desarrollo sea equivalente en complicación a la contribución de un proyecto open source convencional, teniendo en cuenta que hay proyectos a los que se puede contribuir con conocimientos muy básicos de programación, en distintas tareas.

Desarrollo de IA con sistemas Top-down o Bottom-up

También se puede regular el tamaño de los modelos de IA en función de cómo se aborde su desarrollo. Fundamentalmente hay dos sistemas para hacerlo. El primer sistema usa un modelo top-down, que es el que se utiliza en la conocida como IA ascendente. Este tipo de sistemas son bastante complejos, e imitan el pensamiento humano de manera general. Para ello emplean grandes cantidades de datos de cara a los entrenamientos, y crean sistemas muy generalistas, que quieren solucionar una variedad de problemas muy amplia. Este es el sistema empleado con los LLM.

El otro sistema de desarrollo de modelos de IA se conoce como Bottom-up, o IA ascendente. Utilizando este método, los desarrolladores prefieren generar sistemas de IA más sencillos y especializados, con el fin de que se utilicen para tareas determinadas. Este modelo está pensado en la biología, en concreto en el hecho de que los sistemas sencillos se pueden organizar de manera autónoma para el desarrollo de comportamientos más complejos, como sucede por ejemplo en un hormiguero o en un panal de abejas.

Entre las organizaciones y entidades dedicadas al desarrollo de modelos de IA que apuestan por este sistema está Red Hat, que prefiere el desarrollo de sistemas de IA modulares, flexibles y que destaquen por ofrecer un mayor nivel de eficiencia que los LLM. Para ello, además de contar con sus diseños, ofrece a las empresas las herramientas necesarias para el desarrollo de sus soluciones a medida de IA. Para ello, eso sí, necesitan tomar componentes especializados como punto de partida.

Aparte de esto, Red Hat permite que en la nube se puedan ejecutar muchos modelos de IA al mismo tiempo en OpenShift, lo que da la oportunidad de combinar sus capacidades a las empresas, que pueden desplegarlos tanto en sus instalaciones como en entornos distribuidos, lo que les da más control y flexibilidad para utilizarlos.

Otro enfoque más personalizable y que aporta más facilidades a la hora de entrenar modelos que los LLM, con lo que supone poder hacer que tengan, con muchos menos datos, todo lo necesario para que la información que proporcionan en sus respuestas esté más adaptada a las necesidades y a las preguntas específicas de las empresas que los usan.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído