Conecta con nosotros

Entrevistas

«Una estrategia de datos bien definida es clave para reducir las alucinaciones en IA»

Sergio Rodríguez de Guzmán

CTO

PUE

Publicado el

Sergio Rodríguez de Guzmán es actualmente el CTO de PUE, una de las compañías punteras en nuestro país a la hora de poner en marcha proyectos de integración, gobernanza y explotación de los datos empresariales. En los últimos años la empresa ha abrazado además tendencias como la Inteligencia Artificial Generativa, donde como no podía ser de otra forma, la calidad, la seguridad y la correcta evaluación de los datos, juega un papel fundamental.

En esta entrevista nos habla de cuáles son los desafíos más importantes a los que se enfrentan las organizaciones que quieren poner en marcha este tipo de proyectos, de qué forma conviene realizar una auditoría de los datos empresariales o cómo la propia PUE puede ayudar a las compañías en sus procesos de digitalización relacionados con una tecnología que ya supone un antes y un después en muchas áreas.

[MCPRO] ¿Cuáles son los casos de uso actuales de la IA generativa que se pueden aplicar de manera transversal a diferentes industrias?

[Sergio Rodríguez de Guzmán] Actualmente estamos viendo que la IA generativa tiene potencial para muchos sectores. Un ejemplo destacado es la generación de contenido, tanto de texto como de imágenes, aunque el vídeo aún está en fases tempranas. Esto permite aumentar exponencialmente la productividad en áreas como la redacción de correos, descripciones de productos o incluso la generación de código.

Para desarrollo de chatbots y asistentes virtuales que optimizan la atención al cliente y mejoran la asistencia interna, tanto para empleados como para clientes externos. Otra aplicación relevante es la personalización, ya que la IA generativa puede ofrecer recomendaciones y sugerencias personalizadas basadas en las preferencias del usuario, lo cual es útil en sectores como el comercio electrónico.

Por otro lado, se está utilizando para análisis de datos y reporting, extrayendo insights y detectando patrones en grandes volúmenes de datos, lo que permite la creación de informes automatizados. Finalmente, los modelos de lenguaje a gran escala ayudan en la optimización de procesos, permitiendo automatizar y mejorar procesos ya existentes.

[MCPRO] ¿Qué sectores están más avanzados en la adopción de la IA generativa y en qué áreas específicas están viendo sus beneficios de forma más inmediata?

[Sergio Rodríguez de Guzmán]El sector tecnológico es uno de los que más ha avanzado en la adopción de la IA generativa. Por ejemplo, la generación de código ha experimentado un crecimiento notable y, al mismo tiempo, se ha reducido drásticamente el tiempo necesario para desarrollar pruebas unitarias y end-to-end.

Anteriormente, estas pruebas podían suponer alrededor del 30% del coste total de un proyecto, pero con la IA generativa este coste ha disminuido significativamente. Además, la creación de interfaces de usuario, prototipos y el diseño gráfico se están acelerando de forma considerable. Por otro lado, el sector del marketing y publicidad también ha encontrado grandes beneficios, especialmente en la generación y personalización de contenido, así como en el análisis del sentimiento de los clientes sobre productos y marcas. Finalmente, en los servicios financieros, la IA generativa se utiliza principalmente en la atención al cliente.

[MCPRO] ¿Cuáles son los desafíos más importantes que enfrentan las empresas al implementar proyectos de IA generativa?

[Sergio Rodríguez de Guzmán] En primer lugar, la calidad y el sesgo de los datos. La IA generativa depende de datos de alta calidad para evitar resultados erróneos o «alucinaciones», y esto representa un gran reto debido a la complejidad de gestionar grandes volúmenes de datos en los datalakes actuales.

Por otro lado, tenemos La infraestructura y los recursos de cómputo. La IA generativa requiere una infraestructura robusta y escalable, lo que puede generar altos costos si no se optimiza adecuadamente. Y finalmente, la escasez de talento especializado en IA, lo que hace que las empresas necesiten invertir en capacitación y adquisición de personal con habilidades específicas para llevar a cabo estos proyectos.

[MCPRO] ¿Qué papel juega la calidad de los datos y su correcta gestión en la capacidad de la IA para generar resultados veraces y fiables? ¿Cuáles son los principales riesgos de trabajar con datos mal etiquetados, desactualizados o sesgados?

[Sergio Rodríguez de Guzmán]La calidad de los datos es fundamental para que la IA generativa pueda generar resultados precisos y confiables. Si los datos utilizados en el entrenamiento de los modelos son de baja calidad, el modelo aprenderá patrones incorrectos, lo que resultará en respuestas poco fiables. Un problema especialmente crítico es el sesgo en los datos. Si el conjunto de datos está sesgado, los resultados que produce el modelo reflejarán esos mismos sesgos, lo que puede llevar a problemas graves, como discriminación.

Por ejemplo, un modelo entrenado únicamente con datos de personas de una raza en particular podría tener dificultades para identificar a personas de otras razas. Además, cuando los datos están mal etiquetados, desactualizados o sesgados, los modelos aprenden asociaciones incorrectas, lo que puede generar resultados irrelevantes o imprecisos, especialmente en modelos predictivos. En última instancia, esto puede minar la confianza de los usuarios y afectar negativamente la percepción de la IA generativa dentro de las organizaciones.

[MCPRO] ¿Qué prácticas recomiendas a las empresas para asegurarse de que sus datos están listos para ser utilizados en un proyecto de IA? ¿Qué procesos de validación y limpieza de datos son críticos en este terreno?

[Sergio Rodríguez de Guzmán]Es fundamental que las empresas adopten ciertas prácticas clave para garantizar que sus datos estén listos para proyectos de IA. En primer lugar, se debe tener una definición clara de los objetivos del proyecto, lo cual ayuda a identificar qué tipo de datos son necesarios y en qué formato. También es crucial recopilar datos diversificados, lo que permite evitar sesgos y garantizar que el modelo pueda generalizar correctamente.

El gobierno del dato es muy importante; los datos deben estar organizados y almacenados de manera que sean accesibles y seguros. En cuanto a los procesos de validación y limpieza de datos, es importante asegurarse de que no existan duplicados, corregir errores tipográficos y datos atípicos, y garantizar que la información sea veraz y esté completa.

[MCPRO] ¿Cómo contribuye una estrategia de datos bien definida a reducir las «alucinaciones» en los modelos de IA generativa? ¿Qué tipos de alucinaciones son más comunes cuando la gestión de datos no es la adecuada?

[Sergio Rodríguez de Guzmán]Una estrategia de datos bien definida es clave para reducir las alucinaciones en los modelos de IA generativa. Esto implica contar con datos de alta calidad, realizar procesos de limpieza y preprocesamiento adecuados, un etiquetado preciso, diversidad en los datos y actualizaciones constantes.

Las alucinaciones más comunes suelen incluir respuestas sin sentido, información incorrecta, sesgos, errores factuales y incoherencias lógicas. Estos errores se producen cuando el modelo se enfrenta a limitaciones en los datos de entrada o en su entrenamiento previo, lo que genera respuestas que pueden parecer creíbles pero que en realidad son incorrectas.

[MCPRO] ¿Qué mecanismos o auditorías se pueden implementar para asegurarse de que los datos con los que se entrena la IA siguen siendo veraces y relevantes a lo largo del tiempo?

[Sergio Rodríguez de Guzmán]Para asegurarse de que los datos sigan siendo veraces y relevantes, es crucial implementar una monitorización continua. Esto puede incluir paneles de control y alertas que permitan visualizar en tiempo real la calidad de los datos, además de detectar cualquier desviación significativa. Otra técnica útil es la validación cruzada con datos de prueba independientes, lo cual puede ayudar a identificar cualquier deterioro en la precisión del modelo.

No todo es tecnología, también las auditorías realizadas por personas que revisan aleatoriamente la calidad de los datos son esenciales para mantener los estándares adecuados. Y el feedback de los usuarios es muy valioso, ya que permite reportar posibles errores o información incorrecta generada por el modelo.

[MCPRO] ¿Cuáles son las medidas de seguridad y privacidad que las empresas deben considerar antes de iniciar un proyecto de IA generativa?

[Sergio Rodríguez de Guzmán]Es importante realizar una evaluación exhaustiva de los riesgos, identificando los datos sensibles que se utilizarán y posibles vulnerabilidades. También es necesario garantizar que los proveedores seleccionados cumplan con altos estándares de seguridad y privacidad. Durante el desarrollo del proyecto, se deben aplicar medidas como el cifrado de datos, control de acceso y monitorización continua.

Se debe garantizar que solo se recopilen y almacenen los datos estrictamente necesarios, utilizando anonimización y pseudonimización para proteger la identidad de los usuarios. Cumplir con las normativas vigentes y ser transparente en el uso de los datos es esencial para asegurar un entorno seguro.

[MCPRO] Para terminar, ¿qué tipo de acompañamiento ofrece PUE Data a las empresas que quieren poner en marcha una iniciativa de IA generativa?

[Sergio Rodríguez de Guzmán]En PUE Data, con más de 10 años de experiencia en proyectos de datos a gran escala, hemos convertido la IA generativa en la pieza central de nuestra oferta de servicios. El éxito de la IA generativa y los proyectos basados en ella depende del diseño, construcción, optimización y gestión avanzada de lagos de datos, un área en la que PUE Data es una referencia a nivel EMEA. Además, contamos con experiencia en casos de uso reales, lo que nos permite guiar a las empresas a través de un proceso dinámico y adaptable, asegurando así que sus proyectos de IA generativa se desarrollen con éxito en un entorno tecnológico en constante cambio.

Periodista tecnológico con más de una década de experiencia en el sector. Editor de MuyComputerPro y coordinador de MuySeguridad, la publicación de seguridad informática de referencia.

Lo más leído