Noticias

TransmogrifAI, el Machine Learning de Salesforce llega a GitHub

Publicado el

17 agosto, 2018

por

Los modelos de Machine Learning, la Inteligencia Artificial que identifica relaciones entre millones de datos, rara vez son fáciles de diseñar. Los científicos de datos pasan semanas y meses no solamente procesando los datos en los que se basa cada uno de los modelos, si no que también tienen que extraer características útiles de los datos, estrechando algoritmos y al final construyen, o lo intentan, un sistema que no solo funcione bien en el laboratorio, que también lo haga en el mundo real.

Las nuevas herramientas de Salesforce tienen como objetivo intentar aliviar esta carga de trabajo. Salesforce ha publicado en GitHub TransmogrifAI, una biblioteca de Machine Learning para datos estructurados. Este tipo de datos, que se encuentra en tablas y bases de datos, permitirá seleccionar características útiles y modelos de entrenamiento con tan solo tres líneas de código.

Mayukh Bhaowal, director de Salesforce Einstein, comentó en una entrevista telefónica con VentureBeat que TransmogrifAI transforma conjuntos de datos sin procesar en modelos personalizados. Es la evolución de la biblioteca de Machine Learning de Salesforce, que permitió al equipo de Einstein desarrollar en cuestión de horas un modelo personalizado para sus clientes.

Bhaowal explicó que se creó con la experiencia y el aprendizaje que los científicos de datos de Salesforce consiguieron al crear Einstein. Ellos aprendieron que los modelos personalizados superan a los modelos generados a nivel global. «Si se usa el mismo modelo para hacer predicciones para una empresa de Fortune 500 en una tienda familiar, será difícil encontrar un patrón correcto«.

Lo primero es la inferencia de características y la selección automática de características. Es una parte crucial de la capacitación del modelo, ya que la selección de unas características incorrectas podría resultar en un modelo excesivamente optimista, inexacto o sesgado.

Con TransmogrifAI, los usuarios especifican un esquema para sus datos, la biblioteca extrae funciones automáticamente, como números de teléfono o códigos postales. También realizan pruebas estadísticas, catalogando texto con baja cardinalidad, es decir, una pequeña cantidad de elementos, y elimina características con poco poder predictivo, o aquellas que pueden dar lugar a un sesgo no predictivo, otras señales no deseadas.

En una demo, Bhaowal demostró como TransmogrifAI podía aislar rápidamente características como puestos de trabajo, correos electrónicos, direcciones… y de esta forma averiguaba si son predictivas. Los que no lo son fueron descartados automáticamente. «Es perfecto para la reducción de la dimensionalidad«, dijo refiriéndose al proceso de reducción del número de funciones con respecto a la que el modelo se creó.

El siguiente paso es automatizar el flujo de TransmorgrifAI. Basándose en los tipos de características extraídos en el primer paso, la biblioteca transforma los datos estructurados en vectores, tomando automáticamente, por ejemplo, números de teléfono y separando el código del país para saber si es válido o no.

Una vez que TransmogrifAI ha extraído las características del conjunto de datos, estará listo para comenzar la capacitación de modelos automatizados. En esta etapa se ejecutan un cuadro de algoritmos de aprendizaje automático. En paralelo, sobre los datos, se selecciona automáticamente el modelo de mejor rendimiento, se toman muestras y se recalibran las predicciones para evitar datos desequilibrados.

Shubha Nabar, Director Senior de Data Science para Salesforce Einstein, define el entrenamiento de TransmogrifAI como la «explicación del modelo», la transparencia sobre los factores que influyen en los modelos. «Desde una perspectiva de confianza y privacidad de los datos, es importante que el modelo generado no sea una caja negra. TransmogrifAI muestra los efectos globales de cada característica».

Y esta es solo la punta de un iceberg muy grande

TransmogrifAI cuenta con herramientas que facilitan ajustar los hiperparámetros, variables como la frecuencia de muestreo y filtros, que influyen y optimizan los modelos de Machine Learning. Dentro de los entornos de desarrollo integrados que lo soportan, TransmogrifAI resalta los errores de sintaxis y tipográficos, sugiere como completar el código y las característica de cada «tipo» con una jerarquía extensible, lo que permite a los usuarios diferenciar entre funciones primitivas y matizadas.

«TransmogrifAI nos ha transformado, reduciendo el tiempo medio de respuesta en el que se entrena un modelo de rendimiento en un par de horas y permitiendo a nuestros científicos de datos desplegar miles de modelos de producción con un mínimo ajuste manual» dijo Bhaowal. «El objetivo de democratizar el machine learning solo se puede lograr en una plataforma abierta de intercambio de ideas y códigos, y las diversas perspectivas de la comunidad harán que la tecnología sea mejor para todos«.

Casualmente, el lanzamiento público de TransmogrifAI se produce un día después de la plataforma abierta de Oracle, GraphPipe, una herramienta que facilita el desplieuge de modelo de machine learning hechos para frameworks como Google TensorFlow, MXNet, Facebook Caffe2 y PyTorch.

Photo por Curtis MacNewton en Unsplash

Relacionados:Destacados machine learning Salesforce

A continuación

Lenovo crece un 19% gracias a su unidad de PCs

No te pierdas

Un niño de 11 años hackea una réplica de la web electoral de Florida

María Guilarte

En el mundo de la tecnología por casualidad pero enormemente agradecida. Social Media Manager, Redacción, Organización y cualquier reto que se me proponga.