Conecta con nosotros

Noticias

El MIT desarrolla un algoritmo que ayuda a predecir patrones en grandes flujos de datos

Publicado el

DocuWare - Automatizar flujos de trabajo

Un equipo de investigadores del Laboratorio de Informática e Inteligencia Artificial (CSAIL) del MIT ha desarrollado un algoritmo capaz de predecir patrones en grandes flujos de datos. Este algoritmo, que saca partido al Machine Learning, ha recibido, según VentureBeat, el nombre de LearnedSketch, por la forma que tiene de hacer un esbozo de los datos en un flujo.

El algoritmo lleva a cabo este esbozo de manera que puede adelantar si habrá elementos de datos concretos que aparecerán con más frecuencia en dicho flujo que otros, y que, si lo de hecho lo hacen, lo separa del resto de las porciones de datos analizadas. Así se ha descrito en un artículo que ha publicado el equipo que lo ha desarrollado, titulado Algoritmos de estimación de frecuencia basados en el aprendizaje, que se presentará el próximo mes de mayo en la Conferencia internacional de aprendizaje de Nueva Orleans.

Los autores del estudio aseguran que es el primer enfoque basado en Machine Learning no sólo para la estimación de frecuencias. También para los algoritmos de streaming, un tipo de algoritmo en el que los datos se presentan como una secuencia y pueden examinarse sólo durante unas cuantas pasadas. Son bastante populares en sistemas de seguridad y estructuras de proceso de lenguaje natural, entre otras aplicaciones.

En las pruebas que se han llevado a cabo hasta ahora del algoritmo, LearnedSketch ha mostrado su aptitud en la detección y aislamiento de trozos de datos enriquecidos. Así, en pruebas en las que se le ha entrenado con 210 millones de paquetes de datos, se comportó mejor que le resto de enfoques en la estimación de tráfico de Internet en una red, consiguiendo un 57% menos de error. Y cuando se le han dado 3,8 millones de preguntas de AOL únicas, consiguió estimar el número de preguntas de un término  de búsqueda en Internet con un 71% menos de error.

Además, con LearnedSketch se puede generalizar con mucha frecuencia, gracias a las estructuras aprendidas, que se pueden aplicar a elementos no vistos con anterioridad. Así, en una prueba en la que el algoritmo tenía que identificar qué conexiones a Internet eran los que tenían más tráfico, encapsuló distintas conexiones por prefijo o IP de desatino, subrayando la percepción de la regla de que los suscriptores de Internet que generan mucho tráfico tienden a compartir un prefijo en concreto.

Los investigadores que han desarrollador LearnedSketch creen que este sistema, o uno parecido a él, podría utilizarse en el futuro para rastrear trending topics en redes sociales, o para identificar picos de tráfico web problemáticos y mejorar las recomendaciones de producto de sitios de comercio electrónico.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído