Conecta con nosotros

Noticias

Científico de datos e ingeniero de datos, ¿hablamos de lo mismo?

Publicado el

compañeros

Con el excepcional crecimiento de Big Data estos últimos años, han aparecido un montón de nuevas figuras que, a día de hoy, son bastante comunes, si bien hace unos pocos años no habríamos podido prever su futura existencia. Sin embargo, este mundo se mueve tan deprisa que, en un plazo tan corto, no solo se desarrollan nuevas tecnologías, con sus respectivos ecosistemas, sino que se alcanza un grado de especialización tal como para establecer diferencias como la que vamos a abordar en este artículo. Y es que, empezamos respondiendo a la pregunta que formulamos al principio, en el título, y la respuesta es un claro y rotundo NO. Así pues, lo mejor será empezar por intentar definir ingeniero de datos y científico de datos.

Ingeniero de datos

El ingeniero de datos es un profesional dedicado principalmente a aportar orden en el ese caos absoluto que son los datos no estructurados. Así pues, podemos decir que desarrolla, construye, prueba y mantiene arquitecturas de almacenamiento y gestión de los mismos, como bases de datos y sistemas de procesamiento a gran escala. Así pues, el ingeniero se enfrenta a múltiples problemas, como la ya mencionada falta de estructura (algo sencillamente impensable hace no tantos años), errores en dicha información (desde fallos ortográficos en Twitter hasta errores en la transcripción o el volcado de datos). El ingeniero debe ser conocedor de todos los problemas que pueden arrastrar los datos, y debe ser capaz de detectarlos en todos los casos, de corregirlos cuando sea posible, y de descartarlos si no queda otra alternativa.

Así pues, todo lo relacionado con los sistemas de adquisición, gestión, proceso y administración de datos debe pasar, de manera ineludible, por el ingeniero de datos, pues de su trabajo depende de manera crítica la arquitectura y, por lo tanto, el modo en el que se podrá trabajar posteriormente con dicha información. Los ingenieros de datos tendrán que recomendar, y en muchas ocasiones directamente implementar sistemas para mejorar la confiabilidad, eficiencia y calidad de los datos. Para ello, tendrán que emplear una variedad de lenguajes y herramientas para lograr la integración de diversos sistemas, fuentes de datos, etcétera. Además, también deberá permanecer siempre a la búsqueda de nuevas fuentes de información que puedan ser añadidas a las estructuras que maneja.

Si revisamos la documentación de Cognitive Class, estos son los skills y las herramientas con los que trabaja habitualmente un ingeniero de datos:

  • Skills: Hadoop, MapReduce, Hive, Pig, Data streaming, NoSQL, SQL y programación.
  • Herramientas: DashDB, MySQL, MongoDB y Cassandra

Científico de datos

Por lo dicho anteriormente, seguramente ya habrás llegado a la conclusión de que el científico de datos, a diferencia del ingeniero, no participa activamente en el proceso de adquisición y administración de los datos. Podemos decir que, cuando llegan a sus manos, ya han pasado por un proceso de «limpieza», que garantiza su validez (se han eliminado, por ejemplo, los fallos que mencionábamos anteriormente, y que han sido detectados por el ingeniero) y, por lo tanto, el científico se dedicará a desarrollar sofisticados programas analíticos y sistemas de aprendizaje automático (Machine Learning y Deep Learning), así como métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.

En esta fase es fundamental, claro está, que el científico de datos mantenga una comunicación muy, muy fluida con los responsables de negocio de las compañías en las que trabajan. En primer lugar, para que el científico conozca con el mayor nivel de detalla posible, la operativa y los modelos de negocio de la empresa, para ser capaz de detectar posibilidades relacionadas con los mismos y los datos con los que está trabajando. Y, por su parte, dichos responsables también deben implicarse en estos procesos, procurando entender las bases de su funcionamiento y, a partir de ahí, proponiendo objetivos que se puedan obtener a partir de dichos datos.

En base a los datos de Cognitive Class, estos son los skills y las herramientas más comunes en el día a día de un científico de datos:

  • Skills: Python, R, Scala, Apache Spark, Hadoop, machine learning, deep learning y estadística.
  • Herramientas: Data Science Experience, Jupyter y RStudio.

¿Compartimentos estancos?

En base a esta primera definición, podría parecer que hablamos de dos tareas (y sus respectivos profesionales) que trabajan de manera secuencial. En absoluto. En realidad, todo ingeniero de datos tiene un poco de científico de datos y, sí, también a la inversa. Ambos profesionales no solo comparten materia prima (los datos, claro) sino también parte de los lenguajes y herramientas (C#, Java, HadoopScala, Spark, Storm, etcétera). Además, es imprescindible que ambas partes trabajen juntas para discutir múltiples aspectos relacionados con los datos y, además, compartir información sobre los procesos de negocio de la empresa. Dicho de otra manera, las funciones de ingeniero y científico están bastante definidas, pero al mismo tiempo es imprescindible que ambos formen un equipo muy bien cohesionado y con un canal de comunicación bidireccional abierto de manera constante.

Lo más leído