A Fondo
LaMDA: todos los secretos del modelo de lenguaje más avanzado de Google
La fiebre por los chatbots, su aplicación a buscadores y otras herramientas, y por la Inteligencia Artificial lleva varias semanas subiendo sin parar. La llegada de ChatGPT ha calentado el sector de tal manera que ha puesto patas arriba a grandes tecnológicas. Eso sí, para algunas, como Microsoft y Google, el trabajo con IA y desarrollo de chatbots y modelos no es nuevo. De hecho, muchas grandes del sector TI llevan meses, e incluso años, trabajando con IA. Como Google, que lleva años en el desarrollo de chatbots y modelos de lenguaje. Fruto de este trabajo son modelos como BERT. Y LaMDA, el más avanzado.
También es el modelo que ha conseguido no solo hacer que una máquina «comprenda» lo que le dice el usuario. También ha logrado que sea el más capaz de todos a la hora de mantener una conversación lógica e interesante sobre cualquier tema. Tanto, que un ingeniero de Google que acabó perdiendo su empleado, Blake Lemoine, aseguraba que LaMDA tenía sentimientos. Pero ¿qué es realmente LaMDA y cómo funciona? Descúbrelo a continuación.
¿Qué es Google LaMDA y cómo funciona?
LaMDA es la abreviatura de Language Models for Dialog Application, es decir, Modelos de lenguaje para aplicaciones de diálogo. Se creó para dotar al software de la capacidad de interactuar mejor en una conversación natural y fluida. Está basado en la misma arquitectura que BERT y GPT-3, pero por su entrenamiento es capaz de comprender y distinguir matices en preguntas y conversaciones naturales de diversos tipos.
La naturaleza abierta de las conversaciones naturales hace que puedas terminar hablando de un tema completamente distinto al tratado al comenzar a hablar. Aunque la conversación se centre en un solo tema cuando se inicia. Este comportamiento resulta confuso para la mayoría de modelos conversacionales y chatbots. Pero LaMDA está desarrollado y entrenado específicamente para superar este problema. Así lo demostró Google durante su evento I/O del año pasado.
Durante la demostración que hizo entonces la compañía, quedó demostrado que LaMDA puede participar con naturalidad en una conversación sobre un tema elegido al azar. A pesar del flujo de preguntas, algunas poco relacionadas con su tema principal el modelo consiguió mantener el hilo de la conversación.
Este modelo se desarrollo a partir de la red neuronal open source de Google, Transformer. Esta se utiliza para comprender el lenguaje natural. Una vez creado, se le entrenó para encontrar patrones en las frases, así como correlaciones entre las palabras utilizadas en ellas. Incluso para que fuese capaz de predecir la palabra más probable que aparecerá a continuación en una conversación. LaMDA es capaz de hacerlo gracias a que estudia conjuntos de datos que consisten en diálogos, en vez de analizar palabras por separado.
Un sistema de Inteligencia Artificial conversacional es parecido al software de chatbots, pero tiene algunas diferencias con él. Por ejemplo, los chatbots se entrenan con conjuntos de datos limitados y concretos. Solo pueden tener una conversación limitada basada en los datos y las preguntas exactas con las que se han entrenado. Pero LAMDA puede tener conversaciones de final abierto, puesto que está entrenada con diversos conjuntos de datos.
Durante el proceso de entrenamiento, LaMDA detecta matices en diálogos de final abierto, y se adapta. Puede responder a preguntas sobre muchos temas, según el flujo de la conversación. Por tanto, permite mantener conversaciones que son muy parecidas a la interacción humana. Mucho más que lo que pueden conseguir los chatbots.
El entrenamiento de LaMDA
Según Google, para entrenar a LaMDA se utilizó un proceso con dos escenarios, que incluía entrenamiento previo y ajuste. En total, el modelo se entrenó con 1,56 billones de palabras con 137.000 millones de parámetros. Para la etapa de entrenamiento previo, el equipo de Google creó un conjunto de datos de 1,56 TB de palabras, salidas de varios documentos web públicos.
Este conjunto de datos se convirtió después de una cadena de caracteres para hacer frases, «tokenizándose» en 2,81 TB de tokens, que son los que se utilizaron en un principio para entrenar el modelo. Durante esta fase previa al entrenamiento, el modelo utiliza paralelización escalable y general para predecir la siguiente parte de la conversación. Para ello se bases en tokens previos que haya revisado.
Después se pasa a la fase de ajuste, durante la que LaMDA se entrena para poder realizar tareas de generación y clasificación. Básicamente, el generador LaMDA, que predice la siguiente parte de la conversación, genera varias respuestas relevantes basadas en el intercambio de palabras y frases. Después, los clasificadores de LaMDA predecirán, con puntuaciones de calidad y seguridad, la respuesta posible que tiene que dar el modelo en la conversación.
Las respuestas posibles que tengan una puntuación de seguridad baja se filtran y descartan, antes de que la respuesta con mayor puntuación queda seleccionada para continuar con la conversación. Estas puntuaciones se basan en la seguridad, la sensibilidad, la especificidad y los porcentajes de interés. Su objetivo es asegurar que se produce la respuesta más relevando, de mayor calidad y más segura.
Principales objetivos y métricas de LaMDA
Para guiar el entrenamiento del modelo, Google se fijó unos objetivos: calidad, seguridad y realidad terrenal. El primero se mide en función de los niveles de sensibilidad, concreción e interés conseguidos. Se utiliza para asegurar que una respuesta tiene sentido en el contexto en el que se hace y para que esta sea específica para la pregunta realizada. También para que aporte la información necesaria para generar diálogos mejores.
En cuanto a la seguridad, hay que tener en cuenta que el modelo sigue los estándares de la Inteligencia Artificial responsable. Por lo tanto, hay una lista de objetivos de seguridad que se utilizan para capturar y revisar el comportamiento del modelo. Así se puede asegurar que las frases que produce el modelo no están sesgadas ni son inoportunas o erráticas.
Por último, lo que se conoce como realidad terrenal se usa para medir que las respuestas sean tan ajustadas a los hechos como sea posible. Se mide como el porcentaje de respuestas que tienen afirmaciones sobre el mundo real, y es una variable que permite a los usuarios de un sistema conversacional juzgar la validez de una respuesta en función de la fiabilidad de las fuentes que utiliza.
Evaluación del modelo
La evaluación del modelo, una vez entrenado, y en su comportamiento habitual en conversaciones, es constante. Para hacerlo se cuantifican sus avances, las respuestas que produce el modelo preentrenado y el modelo una vez ajustado. También las respuestas que le dan los humanos encargados de su valoración. Todo esto se revisa para valorar las respuestas que da LaMDA en relación con las métricas mencionadas de calidad, seguridad y realidad terrenal.
Hasta ahora, los resultados de la evaluación de LaMDA han llegado a varias conclusiones. La primera es que sus métricas de calidad mejoran con el número de parámetros, y su seguridad lo hace con el ajuste y afinado. En cuanto a la realidad terrenal, mejora a medida que aumenta el tamaño del modelo.
Posibles usos de LaMDA
Aunque el trabajo para el desarrollo y ajuste en cuanto a precisión de LaMDA todavía no ha terminado, ya hay previsiones para utilizar el modelo en distintas situaciones y casos de uso. Por ejemplo, para mejorar la experiencia de los clientes de diversos tipos de establecimientos. También para poner en marcha chatbots que ofrezcan una conversación más parecida a la que mantenemos los humanos. Además, la integración de LaMDA para moverse por las búsquedas en el motor de Google tiene muchas posibilidades de hacerse realidad.
Por otro lado, hay que tener en cuenta que es bastante probable que LaMDA termine afectando al SEO. Al centrarse en el lenguaje y los modelos conversacionales, Google está dando pistas de su visión sobre el futuro de las búsquedas, y apunta a un cambio en cómo va a desarrollar sus productos. Esto también llevará a un posible cambio en el comportamiento de los usuarios de Internet al hacer las búsquedas.
El modelo LaMDA, sin duda, será clave para comprender las preguntas que hacen quienes buscan información. Y resalta la necesidad de asegurar que el contenido disponible en Internet está optimizado para los humanos, y no para los motores de búsqueda. También para actualizar periódicamente el contenido y asegurarse de que evoluciona y sigue siendo relevante con el paso del tiempo.
Es posible que en futuro, en vez de responder a una pregunta con una caja de texto con un listado de frases independientes, el buscador produzca un texto en lenguaje natural ofreciendo explicaciones, hechos y enlaces a las fuentes.
Principales dificultades y barreras para LaMDA
Como sucede con todos los modelos de IA, con LaMDA también hay que abordar problemas y dificultades. Los dos principales están relacionados con la seguridad y con la realidad terrenal, que acabamos de ver.
En relación con la seguridad, la principal barrera para LaMDA es evitar el sesgo. Dado que se pueden obtener respuestas de cualquier parte de Internet, hay muchas posibilidades de que las respuestas que de el modelo amplifiquen el sesgo, reflejando lo que se comparte online. Por eso, para asegurarse de que el modelo no genera resultados impredecibles, e incluso dañinos, Google ha convertido en open source los recursos utilizados para analizar y entrenar el modelo.
Al hacerlo, la compañía permite que hay grupos diversos participando en la creación de los conjuntos de datos que utiliza para entrenar el modelo. Esto ayuda a identificar el sesgo que haya, y a minimizar la compartición de información errónea o dañina.
En cuanto a la realidad terrenal, hay que tener en cuenta que no siempre es fácil validar la fiabilidad de las respuestas que producen los modelos de Inteligencia Artificial, ya que recogen fuentes de toda la web. Para superar este problema, el equipo de Google que trabaja con LaMDA permite que el modelo consulte diversas fuentes externas, incluyendo sistemas de recuperación de información. Incluso que utilice una calculadora. Todo para que sea capaz de ofrece resultados precisos.
La medida de la realidad terrenal del modelo también asegura que las respuestas que da el modelo están basadas en fuentes conocidas. Estas fuentes se comparten, para que los usuarios puedan validar los resultados ofrecidos, y para prevenir que ofrezca información falsa.
Google tiene claro que hay tanto ventajas como inconvenientes en el uso de modelos de diálogo de final abierto, como LaMDA. Por eso están comprometidos a mejorar su seguridad y su nivel de realidad terrenal. Lo hacen para que puedan ofrecer una experiencia más fiable y sin sesgos.
En el futuro es probable que también veamos entrenamiento de modelos LaMDA con datos distintos, entre los que puede haber imágenes y vídeos. Así se abrirán nuevas posibilidades para las conversaciones establecidas con ellos. Pero por ahora no sabemos cuándo será realidad todo esto. Google no ha ofrecido por el momento datos sobre fechas ni integraciones concretas para LaMDA. Pero todo apunta a que serán parte de su futuro.
-
OpiniónHace 6 días
10 predicciones para los proveedores de servicios gestionados en 2025
-
NoticiasHace 6 días
AMD despedirá al 4% de su plantilla mientras se centra en IA y centros de datos
-
NoticiasHace 3 días
El Capitan es el nuevo superordenador más potente y rápido del mundo
-
NoticiasHace 7 días
La Comisión Europea multa a Meta con 798 millones por perjudicar a la competencia de Marketplace