Conecta con nosotros

A Fondo

Machine unlearning: cómo hacer olvidar a los modelos

Publicado el

Machine unlearning: cómo hacer olvidar a los modelos

Hacer que los modelos de machine learning aprendan tiene cierto nivel de complicación. Pero hacer que olviden algo que ya han aprendido es bastante más complicado todavía. Pero no imposible. Y algo muy necesario en caso de que los datos con los que se ha entrenado a estos modelos estén desfasados o anticuados. O se trate de datos suministrados por error y sea información privada o errónea. En este caso, según VentureBeat, tienen que utilizarse técnicas que han dado lugar a un nuevo campo de la IA, conocido como machine unlearning, o desaprendizaje máquina.

En esencia, el machine unlearning es el conjunto de técnicas para ayudar a los sistemas de Inteligencia Artificial a olvidar lo que han aprendido. Pero no todo, sino una parte. Concretamente, se dedican a eliminar la influencia que uno o varios conjuntos de datos concretos han tenido en un sistema de machine learning.

En muchos casos, cuando hay una duda sobre un conjunto de datos, basta con modificarlo. O con eliminar dicho conjunto de datos. Pero si estos datos se han utilizado para entrenar a un modelo, las cosas pueden complicarse. Sobre todo, debido al funcionamiento de los modelos de machine learning, que es muy similar al de las cajas negras. Esto quiere decir que es muy complicado comprender cómo han afectado los conjuntos de datos al modelo durante el entrenamiento. Y todavía más difícil deshacer los efectos provocados por un conjunto de datos problemático.

Esto no quiere decir que no sea imposible, y además hacerlo resultará de ayuda a empresas que tengan que enfrentarse a problemas legales relacionados con sus datos de entrenamiento. Es decir, no solo es aconsejable que aseguren que ya no van a utilizar los datos que dan problemas. También que sean capaces de demostrar que han revertido y eliminado los efectos producidos por ellos.

Cómo funciona el machine unlearning

Con la tecnología actual, si un usuario pide el borrado de datos, sería necesario volver a entrenar todo el modelo, lo que es muy poco práctico. Por eso se necesita un sistema eficiente para gestionar las peticiones de eliminación de información sin que hacerlo suponga un freno para el avance de las herramientas con IA.

La solución más sencilla para conseguirlo es, en primer lugar, identificar los conjuntos de datos problemáticos, excluirlos del entrenamiento y entrenar el modelo de nuevo desde cero. Como hemos mencionado, es el sistema más sencillo, pero menos práctico. Sobre todo, por los costes que conlleva entrenar un modelo, que rondan, de media, los 4 millones de dólares. Esto en la actualidad, porque dados los aumentos del tamaño de los conjuntos de datos, y de los requisitos de potencia de computación, la cifra va a crecer en un futuro no muy lejano.

Por eso, este enfoque puede ser útil solo como último recurso y bajo circunstancias muy determinadas, y está muy lejos de ser la solución ideal. Pero la eliminación selectiva de datos para dejar solo los útiles o los que no generen un conflicto en un conjunto de datos o en un modelo es bastante problemática todavía.

Eso no quiere decir que no se haya avanzado hacia la generación de un algoritmo de eliminación de los aprendido eficaz. Ya desde 2015 se empezó a hablar de sistemas para conseguirlo. Entonces se propuso un sistema que permite las actualizaciones incrementales a un sistema de machine learning sin necesidad de hacer un reentremaniento costoso.

En 2019 se profundizó en el concepto de machine unlearning con el desarrollo de un framework encargado de acelerar el proceso de desaprendizaje limitando de manera estratégica la influencia de los puntos de datos en el procedimiento de entrenamiento. Esto lleva a que se puedan eliminar datos concretos del modelo con un impacto negativo mínimo en su rendimiento.

Por entonces apareció información sobre otro método, centrado en limpiar la red de información sobre un conjunto en concreto de datos de entrenamiento sin tener que acceder al paquete de datos de entrenamiento original para conseguirlo. Este sistema, además, evita que aparezca información sobre los datos «olvidados».

Un año después, en 2020, llegó un enfoque nuevo: fragmentar y trocear las optimizaciones. El fragmentado busca limitar la influencia de un punto de datos. Y el troceado, dividir los datos del franmentado todavía más, además de entrenar modelos incrementales. Este enfoque, por otro lado, acelera el proceso de desaprendizaje y elimina la retención excesiva.

En 2021 se presentó un nuevo algoritmo, capaz de desaprender más ejemplos de datos del modelo que los sistemas anteriores. Además, es capaz de hacerlo manteniendo la precisión del modelo. Y a finales de 2021, los investigadores desarrollaron una estrategia para la gestión del borrado de datos en modelos, incluso cuando estas eliminaciones están basadas solo en la salida del modelo.

Como hemos visto, desde el nacimiento del concepto de machine unlearning se han propuesto varios métodos efectivos para conseguirlo. Pero a pesar de esto, todavía no se ha dado con una solución completa para lograrlo.

Problemas del machine unlearning

Todo indica, por tanto, que el machine unlearning no está precisamente exento de problemas. Algunos de ellos están relacionados con su eficiencia, así como con la estandarización, la eficacia, la privacidad, la compatibilidad y la escalabilidad.

En efecto, cualquier herramienta de machine unlearning con éxito tiene que utilizar menos recursos de los que implicaría entrenar de nuevo al modelo. Tanto en recursos de computación como en tiempo empleado en el proceso. En cuanto a la estandarización, el método empleado para evaluar la efectividad de los algoritmos de machine unlearning varía entre investigaciones. Si se quiere mejorar en comparaciones de procesos, es necesario identificar unas métricas estándar para estos procedimientos.

Una vez que un algoritmo de machine learning recibe instrucciones de olvidar un conjunto de datos, no es posible estar seguros de que el algoritmo ha olvidado dichos datos. Por tanto, se necesitan mecanismos de validación para ello. Además, el machine unlearning tiene que asegurar que no compromete por error datos sensibles durante un desaprendizaje. Hay que tener cuidado de que no quedan rastros de estos datos en el proceso.

Lo ideal sería que los algoritmos de machine unlearning fuesen compatible con los modelos de machine learning existentes. Esto quiere decir que deberían diseñarse de manera que se puedan implementar con facilidad en varios sistemas. Por último, dado que los conjuntos de datos son cada vez más grandes, y los modelos más complicados, es importante que los algoritmos de machine unlearning sean capaces de escalar para poder cubrirlos. Necesitan gestionar grandes cantidades de datos y, potencialmente, realizar tareas de desaprendizaje en diversos sistemas y redes.

Tener todo esto en cuenta es un desafío importante, y es necesario encontrar un equilibrio adecuado entre todas estas operaciones para asegurar un avance sostenido. Para conseguirlo, las empresas pueden trabajar con equipos interdisciplinarios de expertos en IA, abogados expertos en privacidad de datos y expertos en ética. Estos equipos pueden ayudar a identificar riesgos potenciales y a rastrear avances en el campo del machine unlearning.

En el futuro, se espera que los avances en hardware e infraestructura puedan dar soporte a las necesidades del machine unlearning en cuanto a computación. Además, es posible que aumente la colaboración interdisciplinar necesaria para ayudar en un desarrollo optimizado. Los profesionales de las leyes y la ética, así como los de privacidad de datos, pueden unir fuerzas con los investigadores de IA para nivelar el desarrollo de los algoritmos de desaprendizaje.

Además, es probable que el machine unlearning genere interés de legisladores y reguladores, lo que puede llevar a nuevas políticas y normativas. Y dado que los problemas de privacidad de datos siguen acaparando titulares, un mayor conocimiento del público sobre el tema podría incluir en el desarrollo y aplicación del machine unlearning de maneras que todavía hoy no se contemplan.

Cómo avanzar en machine unlearning

El machine unlearning ofrecerá numerosas ventajas a las empresas que quieran implementar, o ya hayan implementado, modelos de IA entrenados con grandes conjuntos de datos. Pero para poder utilizarlo tienen que dar varios pasos. El primero es estar al día de los avances en investigación relacionada con dicho campo, revisando las investigaciones académicas y del sector relacionadas con ella.

Sobre todo conviene prestar atención a los resultados de eventos relacionados con el machine unlearning, y suscribirse a newsletters de investigación sobre IA de líderes en este campo para estar al día de lo último en machine unlearning.

También es necesario implementar normas para la gestión de datos. Es importante examinas las prácticas de la empresa en cuanto a gestión de datos a lo largo del tiempo. Además, es importante intentar evitar los datos sensibles o cuestionables durante la fase de entrenamiento de un modelo. Y establecer procedimientos o procesos de revisión para la gestión adecuada de los datos.

Además, es importante valorar la creación de equipos interdiciplinares. Dada la naturaleza del machine unlearning, multifacética, un equipo diversos con expertos en IA, abogados de privacidad y expertos en ética puede resultar beneficioso. Sobre todo, porque un equipo con estos profesionales se asegurará de que tus prácticas en machine unlearning cumplen con los estándares éticos y legales.

Pero sobre todo, ten cuidado con los costes y trabajar para frenarlos en caso de que sea necesario asumir los relacionados con el desaprendizaje de datos después de entrenar un modelo. Y si no es posible, y los sistemas de machine unlearning disponibles no logran eliminar la información que haya que borrar, ten preparado un presupuesto para entrenar de nuevo el modelo afectado.

Eso sí, la adopción del machine unlearning es una estrategia a largo plazo, aunque inteligente, para las empresas que emplean grandes conjuntos de datos para entrenar modelos de Inteligencia Artificial. Implementando varias de estas estrategias, o todas, las empresas pueden llegar a gestionar cualquier problema que pueda surgir a causa de los datos utilizados en el entrenamiento de modelos.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído