Llevar el análisis de datos a la nube

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Explicar los desafíos que plantean las herramientas locales de análisis y recopilación de datos.
Enumerar las ventajas del análisis de datos basado en la nube.

Crear una solución de análisis de datos en la nube

A medida que las empresas aumentan su complejidad, las herramientas y los servicios se vuelven más eficaces para que las organizaciones puedan seguir el ritmo. Un ejemplo paradigmático es la evolución del análisis de datos, que ha pasado de un costoso hardware local a arquitecturas basadas en la nube. Raf destaca las diferencias entre estos dos enfoques en el siguiente video.

Ver transcripción

[Raf] Quizás ya sepan que la nube es más flexible, escalable, segura, distribuida y resistente. Pero quiero dar un enfoque más relacionado con los datos en cuanto a por qué el procesamiento en la nube es importante para el análisis de datos. En esta sección, explicaré por qué la nube es la mejor forma de realizar análisis de datos hoy en día y por qué resulta adecuada para operar cargas de trabajo de macrodatos. Así que, empecemos.

Antes de hablar de la nube, voy a remontarme alrededor de una década atrás y contarles una breve historia. Después de volver en el tiempo, les resultará sencillo entender por qué a todo el mundo le encanta hacer análisis de datos en la nube. ¿Todo listo para el viaje? ¡Preparen la bebida que prefieran y abróchense el cinturón!

(Una taza golpea el suelo)

(Zumbido)

Hace años, lo más común para que las empresas tuvieran una infraestructura informática, incluidos los macrodatos, era adquirir servidores e instalarlos en centros de datos. Esto suele llamarse "colocación" o "colo". Los servidores destinados a las operaciones de datos no son baratos, porque necesitan mucho almacenamiento, consumen mucha electricidad y requieren un mantenimiento cuidadoso para la durabilidad de los datos.

Por eso hay equipos enteros dedicados a la infraestructura. Créanme, yo mismo fui uno de esos analistas de infraestructuras que trabajaban con centros de datos. Es algo costoso y agobiante.

Con ese panorama, solo las grandes empresas podían trabajar con macrodatos. En consecuencia, el análisis de datos no era muy popular. Era muy común que esos servidores tuvieran un controlador de almacenamiento RAID que replicaba los datos en los discos, lo que aumentaba aún más el costo y el cuidado del mantenimiento.

A principios de los 2000, las operaciones de macrodatos estaban muy ligadas al hardware subyacente, como las mainframes y los clústeres de servidores. Aunque esto era muy rentable para quienes vendían hardware, resultaba costoso y poco adaptable para los consumidores. Entonces, empezó a ocurrir algo maravilloso. El nombre de esta maravilla es Apache Hadoop.

Más que nada, lo que Hadoop hace es sustituir todo ese extravagante hardware por software instalado en sistemas operativos. Sí, entendieron bien. Con la ayuda de Hadoop y los marcos de trabajo informáticos, es posible distribuir y replicar los datos en varios servidores mediante sistemas distribuidos y, además, eliminar la necesidad de ese costoso hardware de replicación de datos para empezar a trabajar con macrodatos.

Lo único que se necesitaba era un equipamiento de red eficiente, y los datos se sincronizaban a través de la red con otros servidores. Gracias a que aceptó las fallas en lugar de intentar evitarlas, Hadoop logró reducir la complejidad del hardware. Cuando se redujo la complejidad del hardware, bajaron los costos.

A su vez, al reducir costos, se democratizaron los macrodatos, porque las empresas más pequeñas también podían aprovecharlos. Les doy la bienvenida al auge de los macrodatos.

Empecé por mencionar a Hadoop porque es el ecosistema de macrodatos de código abierto más popular. Hay otros. Lo que quería destacar aquí es el concepto y no los marcos de trabajo o proveedores específicos.

Al establecer un nivel básico de hardware y aplicar todos los conceptos de macrodatos al software (como la replicación de datos), podemos pensar en ejecutar operaciones de macrodatos en proveedores capaces de ofrecer máquinas virtuales con almacenamiento y una placa de red conectada. Podemos plantearnos usar la nube para crear lagos de datos completos, almacenes de datos y soluciones de análisis de datos.

Desde entonces, el procesamiento en la nube se convirtió en una alternativa atractiva porque eso es justo lo que hace. Pueden adquirir máquinas virtuales e instalar el software que gestionará la replicación de datos, los sistemas de archivos distribuidos y el ecosistema de macrodatos para satisfacer las necesidades sin gastar tanto dinero en hardware. La ventaja es que la nube no se limita a eso.

Muchos proveedores de nube, como Amazon Web Services, empezaron a notar que los clientes ponían en marcha máquinas virtuales para instalar herramientas y marcos de trabajo para macrodatos. A partir de ahí, Amazon empezó a crear ofertas con todos los elementos ya instalados, configurados y listos para usar. Por eso existen los servicios de AWS, como Amazon EMR, Amazon S3, Amazon RDS, Amazon Athena y muchos otros. Esos son los que llamamos servicios gestionados. Todos ellos son servicios de AWS que operan en el ámbito de los datos. En una próxima lección, hablaré con más detalle de algunos servicios que necesitamos para desarrollar nuestra propia solución básica de análisis de datos.

Otra gran ventaja de ejecutar el análisis de datos en la nube es la posibilidad de dejar de pagar por los recursos de infraestructura cuando ya no se necesitan. Esto es muy común en el análisis de datos, porque, dada la naturaleza de las operaciones con macrodatos, quizás necesiten ejecutar reportes de vez en cuando. Pueden hacerlo fácilmente en la nube: establecen un servidor o servicios, lo usan, obtienen el reporte necesario, lo guardan y apagan todo.

Además, se pueden establecer temporalmente más servidores para acelerar las tareas y desactivarlos cuando hayan terminado. Como se paga en su mayor parte por el tiempo y los recursos necesarios, 10 servidores en marcha durante 1 hora suelen costar lo mismo que un servidor en marcha 10 horas. En esencia, con la nube, tienen acceso al hardware sin tener que preocuparse por todo el esfuerzo que suponen las operaciones de los centros de datos. Se obtienen las ventajas de ambos mundos.

¿Vio el video?

Recuerde, la prueba realiza preguntas sobre el video en esta unidad. Si aún lo vio, vuelva y hágalo ahora. Luego estará listo para realizar la prueba.

Estimación de tiempo

Temas

¿Necesita ayuda?

Llevar el análisis de datos a la nube

Objetivos de aprendizaje

Crear una solución de análisis de datos en la nube

¿Vio el video?