Noticias

The Internet Archive sufre un colapso como consecuencia de una IA en proceso de entrenamiento

Publicado el

30 mayo, 2023

por

En el mundo son numerosas las empresas que se dedican a ofrecer servicios de IA, en concreto en España a finales de 2022 eran 185 las compañías que suministraban soluciones de este tipo. Para entrenar la IA se precisa de mucho tiempo, de personal cualificado y de una enorme cantidad de datos que le permitan ser una herramienta útil, fehaciente y rentable.

La principal fuente de información de la que suelen beber las plataformas de IA es The Internet Archive, la gran biblioteca digital gratuita y sin ánimo de lucro fundada en 1996 como forma de preservar el patrimonio material y cultural histórico de Internet. Al ser de código abierto, cualquier miembro de la comunidad puede interactuar en ella aportando contenidos de valor.

Cada vez son más las empresas que entrenan a sus herramientas de IA con el servicio que presta Internet Archive, lo que provoca que se sature y que deje de funcionar de forma óptima, generando una experiencia deficiente entre los usuarios. El pasado 29 de mayo, esta plataforma, que cuenta con más de 800.000 millones de páginas, sufrió una caída de la que se informó mediante el perfil de Twitter de la web.

Al parecer, las investigaciones señalaban a una compañía de IA que estaría usando sus archivos para entrenar a su herramienta. El punto de mira se puso en una oleada de tráfico excesiva procedente de AWS, los servicios de computación en la nube de Amazon. Se trata de la segunda gran operación de este tipo que sufre Internet Archive y que está generando problemas masivos y constantes.

El impacto de la nueva caída

En este sentido, Brewster Kahle, fundador de The Internet Archive, emitió un comunicado en el que informaba sobre el lanzamiento de decenas de miles de solicitudes por segundo para sus archivos OCR de dominio público desde 64 hosts virtuales en los servicios AWS de Amazon. Son muchos los usuarios que se han visto afectados al no poder utilizar esta plataforma sin ánimo de lucro.

Es tal el impacto que provocó que la actividad de la web cayese por completo durante más de una hora, bloqueando para ello todas las direcciones IP desde la que venían las solicitudes. Una vez resuelto el problema, detectaron otras 64 direcciones IP que iniciaron la misma actividad, y aunque descubrieron como bloquearlas, no pudieron evitar que esas solicitudes acabasen provocando una nueva caída de la web.

El agente responsable

Las investigaciones aún no han determinado quién estaría detrás de este suceso, aunque la versión más coherente es que se tratase de una empresa de inteligencia artificial, o en su defecto, de un usuario de los AWS que precisa de grandes cantidades de información procedentes de la librería de The Internet Archive.

Según un último estudio formulado por The Washington Post, cientos de datos estarían siendo usados para entrenar inteligencias artificiales, como el caso del C4 de Google (Colossal Clean Crawled Corpus), que se vale de más de 15 millones de sitios web. De este modo, se han entrenado IAs como LlaMA de Meta, aunque se detectaron contenidos problemáticos que atentaban contra el copyright.

La situación que está sufriendo The Internet Archive pone en entredicho el nivel de seguridad de las páginas web y de los servidores frente a las empresas de IA que necesitan datos. Y es que éstas pueden provocar que una web deje de estar disponible al necesitar acceder a datos de forma intensiva. Al final es una cadena, ya que los usuarios no pueden disfrutar de las informaciones que ellos mismos han aportado debido a una saturación provocada por ellos.

La clave del éxito de The Internet Archive

Este archivo digital está constituido por páginas web, juegos, plataformas digitales y documentos que han formado o siguen formando parte de Internet. A través de su navegador WayBack Machine se pueden consultar los más de 70 petabytes de datos que conserva, entre ellos títulos históricos de juegos como Pac-Man, Secret of Monkey Island, Duke Nukem 3D o Astro Invader sin necesidad de descargar archivos.

Recientemente ha anunciado una alianza con la empresa Cloudflare para poner en marcha el servicio ‘Siempre Online’, de tal modo que si alguna de las webs que usan los servidores de Cloudflare se cae podremos seguir navegando por el contenido o leer la copia de seguridad de la página que se ha archivado en Internet Archive hasta que se restablezca el servicio.

Asimismo, durante la pandemia impulsaron una biblioteca digital para prestar libros conocida como Biblioteca Nacional de Emergencia. Llegaron a tener 1,5 millones de libros, aunque algunas editoriales demandaron a Internet Archive por violar los derechos de autor, lo que les llevó a cerrar este apartado.