Lleve el análisis de datos a la nube

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Explicar los desafíos de la recopilación de datos locales y las herramientas de análisis.
Enumerar las ventajas de los análisis de datos basados en la nube.

Crear su propia solución de análisis de datos en la nube

Debido a la creciente complejidad de los negocios a lo largo del tiempo, las herramientas y los servicios son ahora más potentes para permitir que las organizaciones se mantengan actualizadas. Un ejemplo importante es la evolución de los análisis de datos, que ha pasado de hardware en las instalaciones y de alto coste a arquitecturas basadas en la nube. Raf resalta las diferencias entre estos dos enfoques en el siguiente vídeo.

Ver transcripción

[Raf] Es posible que ya sepan que la nube es más flexible, ampliable, segura y resistente, además de estar más distribuida. Pero hoy quiero centrarme en un enfoque más relacionado con los datos y hablar de por qué la informática en la nube es importante para el análisis de datos. En esta sección, explicaré por qué la nube es la mejor forma de ejecutar análisis de datos hoy en día, y por qué ha demostrado ser una buena opción para trabajar con cargas de trabajo de Big Data. Vamos a empezar.

Antes de empezar a hablar de la nube, voy a retroceder en el tiempo, una década o así, para contarles una breve historia. Después de retroceder en el tiempo, podrán entender por qué a todo el mundo le encanta ejecutar análisis de datos en la nube. ¿Listos para el viaje? ¡Agarren su bebida favorita y abróchense el cinturón!

(una taza se cae al suelo)

(zumbido)

Hace unos años, el enfoque más común de las empresas para contar con una infraestructura informática, incluyendo Big Data, era comprar servidores e instalarlos en centros de datos. Esto se suele llamar colocación, o colo. La cuestión es que los servidores que se usan para las operaciones de datos no son baratos, porque necesitan mucho almacenamiento, consumen mucha electricidad y requieren un mantenimiento exhaustivo para la durabilidad de los datos.

Es decir, se necesitan equipos enteros de infraestructura dedicados. Créanme, he sido uno de esos analistas de infraestructuras que trabajan en centros de datos. Es caro y abrumador.

Teniendo esto en cuenta, solo las grandes empresas podían trabajar con Big Data. A su vez, esto hacía que el análisis de datos no fuera muy popular. En estos servidores, era muy común que hubiera un controlador de almacenamiento RAID que replicara los datos en los discos, lo que aumentaba el coste y el mantenimiento aún más.

A principios de los 2000, las operaciones de Big Data estaban muy relacionadas con el hardware subyacente, como los sistemas centrales y los clústeres de servidores. Aunque esto era muy rentable para las empresas que vendían hardware, era caro y poco flexible para los consumidores. Después, empezó a ocurrir algo fantástico. Esta cosa fantástica se llama Apache Hadoop.

Básicamente, lo que Hadoop hace es sustituir todo ese costoso hardware por un software instalado en los sistemas operativos. Así es. Con la ayuda de Hadoop y distintos marcos informáticos, los datos podían distribuirse y replicarse en múltiples servidores gracias a sistemas distribuidos y a la eliminación de la necesidad de usar un costoso hardware de replicación de datos para empezar a trabajar con Big Data.

Lo único que se necesitaba era un equipo de red eficaz para sincronizar los datos a través de la red con otros servidores. Al aceptar los fallos en lugar de intentar evitarlos, Hadoop permitía reducir la complejidad de hardware. Y cuando se reduce la complejidad de hardware, se reducen los costes.

Y al reducir los costes, se empieza a democratizar el Big Data, porque las empresas más pequeñas pudieron empezar a usarlo también. Bienvenidos al boom del Big Data.

He hablado de Hadoop primero porque es el ecosistema de Big Data de código abierto más popular. Pero hay otros. Además, lo que quiero destacar es el concepto, no marcos ni proveedores específicos.

La cuestión es que, al simplificar el hardware hasta un nivel básico y aplicar todos los conceptos del Big Data en el software, como la replicación de datos, podemos empezar a pensar en ejecutar operaciones de Big Data en proveedores capaces de proporcionar máquinas virtuales con almacenamiento y una tarjeta de red instalada. Podemos empezar a pensar en usar la nube para construir lagos de datos completos, almacenes de datos y soluciones de análisis de datos.

Desde entonces, la informática en la nube se ha posicionado como una atractiva alternativa, puesto que eso es exactamente lo que hace. Ahora pueden conseguir máquinas virtuales, instalar el software que se encargará de la replicación de datos, los sistemas de archivos distribuidos y los ecosistemas generales de Big Data, y estar felices sin tener que gastar mucho dinero en hardware. La ventaja es que la nube no se detiene ahí.

Muchos proveedores de soluciones en la nube, como Amazon Web Services, empezaron a observar que sus clientes usaban máquinas virtuales para instalar herramientas y marcos de Big Data. A raíz de eso, Amazon empezó a diseñar ofertas con todos los componentes ya instalados, configurados y listos para empezar a usar. Así nació AWS Services, como Amazon EMR, Amazon S3, Amazon RDS, Amazon Athena y muchos otros servicios. A este tipo de servicios los llamamos servicios gestionados. Todos ellos son servicios de AWS que funcionan en el ámbito de los datos. En una sesión posterior, hablaremos más sobre algunos de estos servicios que necesitaremos para desarrollar nuestra solución básica de análisis de datos.

Otra gran ventaja de ejecutar análisis de datos en la nube es poder dejar de pagar por recursos de infraestructura cuando ya no los necesitamos. Esto es algo muy común en el análisis de datos, ya que, debido a la naturaleza de las operaciones de Big Data, es posible que tengan que ejecutar informes de vez en cuando. Esto se puede hacer fácilmente en la nube. Solo hay que implementar un servidor o varios servicios, usarlos, obtener el informe que necesitan, guardarlo y apagarlo todo.

También pueden implementar más servidores de forma temporal para acelerar las tareas y desactivarlos cuando terminen. Además, como pagan principalmente por el tiempo y los recursos que necesitan,10 servidores ejecutándose durante 1 hora suelen costar lo mismo que un servidor ejecutándose durante 10 horas. Básicamente, con la nube, tienen acceso a hardware sin tener que preocuparse por toda la carga que implican las operaciones de un centro de datos. Reúne lo mejor de todas las posibilidades.

¿Ha visto el vídeo?

Recuerde, la prueba realiza preguntas sobre el video en esta unidad. Si aún lo ha visto, vuelva y hágalo ahora. Después, estará listo para realizar la prueba.

Estimación de tiempo

Temas

¿Necesita ayuda?

Lleve el análisis de datos a la nube

Objetivos de aprendizaje

Crear su propia solución de análisis de datos en la nube

¿Ha visto el vídeo?