Conecta con nosotros
antonio vidal antonio vidal

Entrevistas

Entrevistamos a Antonio Vidal, premio Mejor Científico de Datos en España 2017

Antonio Vidal

Data Science Manager

SIVSA

Publicado el

Aunque la de científico de datos es una profesión relativamente nueva, su cotización ha subido como la espuma en poco tiempo dado su principal objetivo: poner orden y sacar valor de cientos de miles de datos que, durante años, han almacenado las empresas. Sin embargo, parece que encontrar un data scientic con experiencia en el mercado es como buscar una aguja en un pajar: hay pocos y muy solicitados.

Para reconocer el papel fundamental que este profesional tiene a la hora de establecer nuevas estrategias de negocio, Synergic Partners, compañía del Grupo Telefónica, celebró en octubre los Data Science Awards Spain donde Antonio Vidal, Data Science Manager de la compañía gallega SIVSA, se alzó con el galardón como el Mejor Científico de Datos de España en 2017.

Vidal nos ha contado cuál es el proyecto que ha gustado tanto al jurado de Synergic Partners, cuándo y cómo se dio cuenta del potencial que tiene el análisis de datos en el negocio o qué aspectos del dato se debería investigar más, cómo se forma un analista de datos o ejemplos prácticos de cómo está afectando este análisis a nivel personal.

MuyComputerPRO: ¿En qué consiste el proyecto por el que le han dado el galardón de Mejor Científico de Datos en 2017?

Antonio Vidal: El proyecto con el que he ganado el galardón permite predecir el precio de las subastas de las instancias EC2 de Amazon.

Amazon Web Services permite usar máquinas virtuales (instancias EC2) en la nube de forma sencilla, sin necesidad de disponer de infraestructura propietaria y pagando solamente por el servicio usado. Estas máquinas virtuales tienen diferentes capacidades y se facturan por segundos en función del tipo que se utilice.

Las instancias EC2 que forman parte de la capacidad sobrante de Amazon, por no estar contratadas por ningún cliente, se comercializan mediante un sistema de subastas conocido como Spot. A través de estas subastas es posible obtener el mismo servicio a un precio que puede ser un 90% inferior al estándar de mercado. En el momento en el que la oferta realizada está por debajo del precio de la subasta, Amazon retira el uso de la instancia EC2 contratada y da un intervalo de dos minutos para guardar el trabajo que se estuviese realizando en ese momento.

El proyecto con el que he ganado el galardón la Mejor Científico de Datos 2017 permite predecir los precios de estas instancias Spot subastadas. Esto permite a las empresas optimizar sus costes de infraestructura realizando ofertas superiores a las subastas para usar los recursos EC2 de Amazon a unos precios muy inferiores al precio estándar.

Además de analizar los datos suministrados, el proyecto incluye un sistema para recoger de forma continua los datos de las últimas subastas Spot de Amazon y proporciona una API que permite consultar las predicciones realizadas para las siguientes 48 horas. En la actualidad, este sistema ya almacena más de 20Gb de datos y predice los precios de más de 5600 tipos diferentes de instancias.

MuyComputerPRO: Tiene más de 17 años de experiencia en el sector IT, ¿cuándo se dio cuenta que los datos y su tratamiento (Big Data) iban a ser importantes para la sociedad?

Antonio Vidal: Siempre he sido una persona a la que le han gustado los datos y, por suerte, la mayor parte de mi carrera la he desarrollado en el sector de los operadores de telecomunicaciones, primero trabajando en uno y después en un proveedor de sistemas de gestión para ellos. Esto me ha permitido estar en contacto con un tipo de empresas, los operadores, que tienen que procesar grandes cantidades de datos para hacer funcionar su negocio. La gestión de la red, el despliegue de infraestructuras, la facturación de sus servicios o la gestión global de sus clientes son diferentes ejemplos de ámbitos en los operadores en los que se manejan grandes cantidades de datos.

Mi curiosidad, el sector de los operadores y ser el responsable de un departamento de I+D me llevó a identificar en el año 2012 que, además de las iniciativas Big Data que estaban empezando a aparecer para almacenar datos, era necesario realizar analítica avanzada de los mismos para obtener información útil para el negocio. Desde ese momento me he dedicado a aprender y realizar proyectos de analítica avanzada que obtienen toda la información posible de los datos de las empresas para ayudarlas a mejorar sus resultados.

MuyComputerPRO: ¿En qué aspectos del dato se debe investigar más, a su juicio, hoy en día?

Antonio Vidal: Hay tres ámbitos de la analítica avanzada en los que se está trabajando de forma importante hoy en día y que son cruciales para el desarrollo de soluciones futuras: el procesado inicial de los datos, el desarrollo de algoritmos y la optimización de parámetros de esos algoritmos.

Los datos son el punto de partida de cualquier análisis, pero nunca están disponibles en el formato adecuado ni se han generado las variables necesarias de entrada a los algoritmos. Esta labor se hace de forma manual y supone el 80% del tiempo dedicado al desarrollo de un proyecto de analítica avanzada. En la actualidad, aunque se están desarrollando sistemas que generan todas las combinaciones posibles de las variables usadas y las valoran, es necesario seguir desarrollando sistemas que reduzcan el tiempo necesario para preparar los datos y que permitan a los científicos de datos resolver otros problemas de negocio.

Los algoritmos son la base de la analítica avanzada de datos. Aunque las bases de los algoritmos actuales tienen más de 50 años, se están desarrollando nuevas técnicas de análisis que están revolucionando el estado del arte, especialmente usando redes neuronales profundas. Estos nuevos algoritmos permiten obtener resultados que superan las capacidades humanas expertas en el ámbito del análisis de imagen, audio y textos de forma exponencial. En este ámbito es necesario seguir investigando y proponiendo nuevos algoritmos y técnicas de análisis que mejoren estos resultados y reduzcan los tiempos de análisis.

Por último, los algoritmos tienen parámetros que ajustan su funcionamiento. Inicialmente el número de parámetros era reducido, pero, en la actualidad, las redes neuronales profundas tienen miles de parámetros y es imposible analizar todas sus combinaciones. Por lo tanto, es necesario trabajar en sistemas que permitan seleccionar y optimizar estos parámetros de forma ágil para obtener resultados en un tiempo razonable.

MuyComputerPRO: ¿Qué camino hay que seguir para ser un científico de datos, a nivel de formación?

Antonio Vidal: A nivel académico, el camino más fácil es estudiar carreras técnicas que proporcionen una buena base matemática: matemáticas, estadística, física, informática o cualquiera de las ingenierías actuales. También existen cada vez más postgrados de Big Data y analítica que complementan la formación de los grados o permiten reenfocar la carrera profesional para convertirse en científico de datos.

Además de la formación académica, personalmente, creo que lo más importante para ser un científico de datos es la curiosidad y el interés personal por el análisis de datos ya que existen multitud de recursos en internet (blogs, plataformas de MOOCs, recursos de código compartidos) que permiten formarse y aprender todas las técnicas necesarias.

Por último, es muy importante practicar para obtener la intuición necesaria para analizar datos. Aquí es recomendable participar en competiciones como las organizadas por Kaggle, la plataforma líder en este ámbito.

MuyComputerPRO: ¿Qué profesionales o empresas son, a día de hoy, pioneros en el tratamiento de datos, que usted conozca? Y a nivel de país, ¿cómo está España con respecto al resto del mundo, en este aspecto?

Antonio Vidal: Las principales empresas mundiales en tratamiento de datos provienen de EEUU: Google, Apple, Facebook y Amazon. En estas empresas se une el talento y la gran disponibilidad de datos para ser las pioneras en todos los desarrollos de analítica avanzada y su aplicación a nuestro día a día.

Además de estos cuatro grandes, hay multitud de proveedores de tecnología como Microsoft, IBM, H2O o empresas que trabajan de forma más sectorial como Salesforce, Netflix o Dropbox que son líderes en diferentes ámbitos. Sin embargo, a nivel mundial, hay miles de iniciativas pioneras en diferentes ámbitos de análisis y tecnologías: sólo el informe del Big Data Landscape tiene más de 900 empresas listadas en diferentes ámbitos, el European Artificial Intelligence Landscape, más de 400 o el Israel’s Machine Intelligence Startup Landscape también más de 400. Otros países como China, están haciendo grandes apuestas institucionales para liderar el mercado en los próximos años, con Baidu a la cabeza de sus iniciativas.

En España, los líderes en tratamiento de datos son Telefónica con sus iniciativas de digitalización y BBVA, entre otras muchas empresas. A nivel consultoría hay que destacar a Synergic Partners, una empresa que ha sido pionera en el desarrollo de proyectos de analítica avanzada con más de 10 años de historia.

Como líderes mundiales se podría citar a Andrew Ng, uno de los padres de las redes neuronales profundas modernas y creador de la plataforma de cursos online Coursera, que ha revolucionado la enseñanza por internet. Otros nombres destacados son Geoffrey Hinton, Yann LeCun o Michael I Jordan. En España tenemos a Ramón López de Mántaras, una referencia mundial en el desarrollo de la Inteligencia Artificial.

MuyComputerPRO: Para el consumidor o usuario final, ¿cómo puede afectarnos en un futuro la analítica de datos?

Antonio Vidal: La analítica de datos ya supone una auténtica revolución en numerosos ámbitos de nuestra vida, como personas cada vez más conectadas que somos. Por ejemplo, Google ya nos ofrece respuestas automáticas a los correos que recibimos, seguimiento de paquetes y viajes, alertas dinámicas en función del tráfico y la distancia para llegar a tiempo a las reuniones, selección de noticias según nuestros intereses o traducción automática cuando estamos de viaje; Amazon nos recomienda productos para comprar en función de nuestras compras, historial de búsquedas o lista de deseos; Netflix o Spotify nos recomiendan contenido para consumir; Waze nos indica la mejor ruta para llegar a nuestro destino en función del estado actual del tráfico y de la información compartida por otros conductores; etc.

Todos los ejemplos anteriores son ejemplos de nuestra vida conectada: la siguiente revolución será cuando el análisis de datos permita que cada vez más ámbitos de nuestra vida física tengan servicios personalizados que nos hagan la vida más sencilla y mejoren nuestra calidad de vida. Para mí, uno de los más importante en este sentido son los sistemas de conducción autónoma, que nos permitirán recuperar todo el tiempo que dedicamos a los desplazamientos actuales en coche. Otras revoluciones muy importantes serán en la medicina, con diagnósticos y tratamientos cada vez más personalizados y adaptados a las características de cada persona, o en el ambiente laboral, cuando los humanos y las máquinas realicemos trabajos de forma coordinada y complementaria.

Periodista especializada en tecnologías corporate, encargada de las entrevistas en profundidad y los reportajes de investigación en MuyComputerPRO. En el ámbito del marketing digital, gestiono y ejecuto las campañas de leads generation y gestión de eventos.

Lo más leído