Noticias

Amazon Web Services y Big Data

Para conocer mejor algunos de los servicios ofrecidos por AWS hemos hablado con Carlos Conde (@caarlco), technology evangelist de Amazon Web Services.

Publicado el

23 septiembre, 2015

por

Javier Pérez Cortijo

Amazon Web Services (AWS), tal como podemos leer en su web, ofrece un amplio conjunto de servicios globales de informática, almacenamiento, bases de datos, análisis, aplicaciones e implementaciones para respaldar una gran variedad de cargas de trabajo en organizaciones de todo tipo y tamaño.

La característica común de los servicios de AWS es que están basados en la nube, lo que favorece la puesta en marcha y ejecución de aplicaciones en un tiempo muchísimo menor que si echáramos mano de una infraestructura de TI propia, al tiempo que permite disfrutar a empresas que nunca podrían habérselo permitido, por limitaciones en su presupuesto de TI, de la misma seguridad en la que confían grandes organizaciones de ámbito multinacional.

Actualmente, AWS tiene más de un millón de clientes en 190 países, entre los que encontramos 1.700 agencias gubernamentales, 4.500 instituciones educativas y más de 17.000 organizaciones sin ánimo de lucro. La red global de AWS dispone de 53 puntos de presencia en todo el mundo, incluyendo Estados Unidos, Europa, Asia, Australia y América del Sur.

La salud financiera de AWS es envidiable, ya que en el segundo trimestre de 2015 logró aumentar sus ingresos interanuales hasta en un 81%, con lo que alcanzó la cifra de 1.800 millones de dólares, si bien en Amazon son optimistas para el futuro y sitúan la facturación en 7.000 millones de dólares para un horizonte temporal no muy lejano.

AWS se ha caracterizado todos estos años desde su lanzamiento por incluir constantemente nuevos servicios y funcionalidades. En 2011 añadió más de 80 servicios y funcionalidades; en 2012 aumentó 159; en 2013 incrementó 280; en 2014 batió el récord con 516, y hasta julio de este año ha lanzado 350 novedades.

Qué es Big Data

Para conocer mejor algunos de los servicios ofrecidos por AWS hemos hablado con Carlos Conde (@caarlco), technology evangelist de Amazon Web Services, un especialista en el mercado del análisis de datos a gran escala, lo que normalmente se llama Big Data, una palabra que Carlos Conde afirma que no se emplea correctamente en la mayoría de las ocasiones.

«Las empresas lo que buscan es conocer lo que necesitan los clientes. Un ejemplo es la propia Amazon, que no sólo quiere vender más, también investiga la mejor forma de organizar los almacenes. Sabiendo lo que compran los clientes puedes organizar los almacenes para que sean más eficientes. Ahora Amazon usa en sus almacenes robots que buscan entre las diferentes estanterías y lo entregan a la persona que está preparando el paquete. Todo esto viene de la consecuencia de analizar los datos provenientes del uso de nuestro sitio web», afirma Carlos Conde.

«Almacenar y analizar datos es parte del círculo virtuoso de Big Data, pero no hay que descuidar el proceso previo de generar esos datos y el último paso que consiste en compartirlos. Respeto a la generación de datos, en la nube de Amazon todo el ancho de banda que consumes para subir datos es gratuito, aunque no siempre es fácil hacerlo rápidamente tratándose de grandes volúmenes«, considera Carlos Conde.

«Imaginad un laboratorio que puede generar de 5 a 10 Tbytes de datos al día; una forma sencilla de subirlos a nuestra nube es enviarlos en discos duros por una empresa de mensajería a Irlanda y en cuestión de dos o tres días los tienes disponibles. Otro método clásico es crear una VPN entre el data center de la empresa y los de Amazon con una conexión dedicada de 10 Gbit. Es decir, métodos para mover datos a las instalaciones de Amazon, por muy grandes que sean los volúmenes de los que hablamos, hay varios», confirma el evangelista de AWS.

Carlos Conde, technology evangelist de Amazon Web Services (AWS).

Almacenamiento

El modelo económico de AWS se basa en una arquitectura escalable que disfruta de nuevas capacidades casi cada día y en la que no hay que pagar antes de usar los servicios, por lo que sólo emplearemos los recursos cuando los necesitemos, todo ello con la facilidad de compra (en este caso alquiler de servicios) propia de la tienda de libros de Amazon.

Una vez que hemos generado los datos y los hemos enviado a los data center de Amazon, los servicios de almacenamiento más usados en España y el mundo son Amazon S3, Amazon DynamoDB y Amazon Redshift. El primero de ellos se caracteriza por ser muy fácil de utilizar y por su sencilla interfaz de servicios web para almacenar y recuperar cualquier cantidad de datos desde cualquier lugar, pagando sólo por el almacenamiento usado y sin cuota mínima ni coste de contratación.

Según Carlos Conde, «Amazon S3 es el almacenamiento de más bajo nivel y permite a cualquier empresa no condicionar su crecimiento a la necesidad de más inversiones en infraestructura. Empresas como Dropbox y Spotify hacen uso de este servicio«.

En cuanto a Amazon DynamoDB, es un servicio de datos NoSQL totalmente gestionado y que ofrece un rendimiento rápido y predecible gracias a su escalabilidad. Los clientes no tienen que preocuparse del aprovisionamiento del hardware, ni tampoco de las tareas de instalación y configuración, replicación y revisiones del software, así como de escalar el clúster. Lo más interesante, según Carlos Conde, «es que tiene una latencia muy baja, con escrituras por debajo de los 10 milisegundos«.

Respecto a Amazon Redshift, es un almacen de datos rápido y totalmente gestionado a escala de petabytes que permite analizar todos los datos empleando de forma sencilla sus herramientas de inteligencia empresarial. Carlos Conde tiene claro que nos encontramos «ante un data warehouse disponible para cualquier empresa que lo necesite; los precios son por hora, por lo que permite usar una infraestructura muy costosa si fuera propia sólo en momentos determinados. Además, gracias al AWS Marketplace las empresas pueden adquirir todo tipo de herramientas en un modelo de pago por uso«.

Análisis

Las empresas que trabajan con Big Data han estado almacenando datos y luego procesándolos en lo que se ha llamado batch analytics, aunque ya se ha llegado a un punto en que deben reducir la ventana de procesamiento, es decir, lo que antes era cada noche y después cada hora, se busca que ahora sea un análisis de datos casi en tiempo real.

En este sentido hay que mencionar a Amazon Kinesis, un servicio gestionado en la nube que puede capturar y almacenar de manera continua terabytes de datos por hora procedentes de cientos de miles de fuentes como secuencias de clics de sitios web, transacciones finacieras, feeds de redes sociales y videojuegos, así como registros de TI.

Lo importante es que las aplicaciones de Amazon Kinesis pueden ejecutar análisis en tiempo real de datos de eventos de alta frecuencia o de cualquier tipo de registros y desencadenar alertas de todo tipo.

Como nos recuerda Carlos Conde ,»hemos pasado del almacenamiento y el análisis de datos, lo que se conoce como batch processing, al stream processing, con Amazon Kinesis como destacado representante de los nuevos servicios de stream processing de datos en tiempo real«.

En definitiva, el empleo de los servicios de AWS en tareas de Big Data nos permitirá entender a nuestros clientes y obtener respuesta a las cuatro preguntas fundamentales que debemos hacernos, tal como afirma Carlos Conde: «¿quién es realmente mi cliente?, ¿qué es lo que le gusta a mi cliente?, ¿qué está sucediendo con mis productos?, y ¿dónde consume la gente mis productos?«.