Noticias

Estudio del MIT halla fallos de etiquetado en conjuntos de datos empleados para pruebas de IA

Publicado el

29 marzo, 2021

por

Estudio del MIT halla fallos de etiquetado en conjuntos de datos empleados para pruebas de IA

Un equipo de investigadores expertos en computación del MIT ha examinado 10 de los conjuntos de datos más citados para probar sistemas de machine learning, y a partir de los datos que han encontrado han elaborado un estudio en el que se demuestra que hay diversos fallos de etiquetado en parte de los datos que incluyen dichos conjuntos. En concreto, según VentureBeat, descubrieron que el 3,4% de los datos no estaba etiquetado o el que tenía no era del todo preciso.

Los conjuntos de datos, que además se han utilizado con bastante asiduidad, y han sido citados más de 100.000 veces, incluyen datos basados en texto procedentes de fuentes como grupos de noticias, Amazon e IMDb. Los errores se han producido por diversos motivos. Por ejemplo, opiniones de productos de Amazon que se etiquetan equivocadamente como positivas cuando en verdad son negativas, y al contrario.

Algunos de los errores, en el caso de los datos que tienen base en imágenes, se originan por mezclar especies de animales, y otros por etiquetar fotos mal utilizando objetos menos prominentes y dominantes en la foto. Por ejemplo, etiquetarlas con el nombre de un objeto secundario en vez de con el que más espacio ocupa en la imagen, esto es, con el principal.

En cuanto a los vídeos, se da el caso de que en uno de los conjuntos de datos compuesto por vídeos de YouTube, había un corte de una persona hablando a la cámara durante varios minutos y etiquetado como «campana de iglesia», aunque esta solo se oye unos segundos al final. Otro vídeo estaba etiquetado como orquesta aunque era un concierto de Bruce Springsteen.

Los investigadores emplearon un framework llamado confident learning para encontrar errores. Este framework se encarga de examinar conjuntos de datos para encontrar problemas o datos irrelevantes en etiquetas. Además, confirmaron los posibles errores a través de la plataforma de pequeñas tareas para freelances Mechanical Turk de Amazon. Así se encontraron los fallos, de media el porcentaje que hemos mencionado. El conjunto de datos con más fallos de los analizados fue el conocido como QuickDraw, una colección de imágenes mantenida por Google con alrededor de 5 millones, sobre el 10% de los datos. El que menos, ImageNet, con solo 2.900 errores de etiquetado.

El grupo que ha elaborado el informe ha puesto además en marcha una página web para que cualquiera que lo desee pueda comprobar que los errores encontrados son tales. Algunos son relativamente insignificantes. Otros son confusiones, sobre todo en imágenes. Otros son producto de matices e interpretaciones y no son importantes. Eso sí, aunque las etiquetas no tengan errores considerables, y solo sean pequeños fallos y matices, pueden llevar a consecuencias de cierto peso en sistemas de machine learning. Incluso aunque el fallo sea muy pequeño, puede derivar en que un sistema de Inteligencia Artificial sea capaz de diferenciar entre objetos que en apariencia sean muy distintos pero que se hayan contrastado con datos etiquetados de manera errónea.

Relacionados:conjuntos de datos Etiquetado fallos de etiquetado Inteligencia artificial

A continuación

Así es Stretch, el nuevo robot inteligente de Boston Dynamics

No te pierdas

Lenovo y la oficina inteligente ThinkSmart

Celia Valdeolmillos

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Click para comentar

10 predicciones para los proveedores de servicios gestionados en 2025

OpiniónHace 6 días

10 predicciones para los proveedores de servicios gestionados en 2025

El Capitan es el nuevo superordenador más potente y rápido del mundo

NoticiasHace 2 días

El Capitan es el nuevo superordenador más potente y rápido del mundo

La Comisión Europea multa a Meta con 798 millones por perjudicar a la competencia de Marketplace

NoticiasHace 6 días

La Comisión Europea multa a Meta con 798 millones por perjudicar a la competencia de Marketplace

AMD despedirá al 4% de su plantilla mientras se centra en la IA y los centros de datos

NoticiasHace 6 días

AMD despedirá al 4% de su plantilla mientras se centra en IA y centros de datos

MuyComputerPRO

Estudio del MIT halla fallos de etiquetado en conjuntos de datos empleados para pruebas de IA

Noticias

Estudio del MIT halla fallos de etiquetado en conjuntos de datos empleados para pruebas de IA

Microsoft Ignite 2024: más versatilidad para la IA, mejoras en Teams y aumento de la seguridad

«Los agentes autónomos de Salesforce nos ayudan a hacer mejor nuestro trabajo»

IBM sigue avanzando en la corrección de errores en sistemas cuánticos

«En un futuro podremos saber desde el primer momento si estamos siendo atacados»

NVIDIA y Microsoft potencian el desarrollo con IA en PCs con RTX

Soberanía de datos: hacia la privacidad total en la mensajería instantánea empresarial

Salesforce lidera la tercera ola de la IA con Agentforce

Inteligencia artificial, agilidad y desarrollo de aplicaciones seguras

“Los datos son la base para transformar cualquier organización”

Responder al riesgo con IA y Machine Learning

Microsoft acusa a Google de «operaciones encubiertas» para influir en la regulación cloud en la UE

Salesforce Agentforce World Tour Madrid 2024: donde la innovación te espera

Microsoft Ignite 2024: más versatilidad para la IA, mejoras en Teams y aumento de la seguridad

Pure Storage nombrada Líder en el Cuadrante Mágico de Gartner para plataformas de almacenamiento de archivos y objetos

Arm y Qualcomm van a la guerra

Penguin Random House cambia su copyright para proteger de la IA a los autores

Arquitecturas multiagente: la colaboración entre agentes de IA, más cerca

¡No te pierdas nada! ¡Sigue aquí el streaming del eFactura Fórum II!

Lo más leído

MuyComputerPRO

Estudio del MIT halla fallos de etiquetado en conjuntos de datos empleados para pruebas de IA

También te puede gustar

Microsoft Ignite 2024: más versatilidad para la IA, mejoras en Teams y aumento de la seguridad

«Los agentes autónomos de Salesforce nos ayudan a hacer mejor nuestro trabajo»

IBM sigue avanzando en la corrección de errores en sistemas cuánticos

«En un futuro podremos saber desde el primer momento si estamos siendo atacados»

NVIDIA y Microsoft potencian el desarrollo con IA en PCs con RTX

Soberanía de datos: hacia la privacidad total en la mensajería instantánea empresarial

Salesforce lidera la tercera ola de la IA con Agentforce

Inteligencia artificial, agilidad y desarrollo de aplicaciones seguras

“Los datos son la base para transformar cualquier organización”

Responder al riesgo con IA y Machine Learning

Microsoft acusa a Google de «operaciones encubiertas» para influir en la regulación cloud en la UE

Salesforce Agentforce World Tour Madrid 2024: donde la innovación te espera

Microsoft Ignite 2024: más versatilidad para la IA, mejoras en Teams y aumento de la seguridad

Pure Storage nombrada Líder en el Cuadrante Mágico de Gartner para plataformas de almacenamiento de archivos y objetos

Arm y Qualcomm van a la guerra

Penguin Random House cambia su copyright para proteger de la IA a los autores

Arquitecturas multiagente: la colaboración entre agentes de IA, más cerca

¡No te pierdas nada! ¡Sigue aquí el streaming del eFactura Fórum II!

Lo más leído