Levar a análise de dados para a nuvem
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Explicar os desafios da coleta de dados local e das ferramentas de análise.
- Listar as vantagens da análise de dados baseada em nuvem.
Criar sua solução de análise de dados na nuvem
Como os negócios vêm ficando mais complexos ao longo do tempo, as ferramentas e os serviços ficaram mais poderosos para permitir que as organizações possam acompanhar o ritmo. Um exemplo clássico é a evolução da análise de dados de hardware caro e local para arquiteturas baseadas em nuvem. Raf destaca as diferenças entre essas duas abordagens no vídeo a seguir.
Exibir transcrição
[Raf] Você já deve saber que a nuvem é mais flexível, escalável, segura, distribuída e resiliente. Mas quero mostrar uma abordagem mais relacionada a dados em termos de por que a computação em nuvem é relevante para análise de dados. Nesta seção, vou explicar por que a nuvem é a melhor maneira de fazer análise de dados atualmente e por que sempre foi boa para operar cargas de dados de big data. Então vamos começar.
Antes de começar a falar da nuvem, vou voltar no tempo, talvez uma década, e contar uma história. Depois de voltarmos no tempo, você vai ver naturalmente por que todo mundo gosta de fazer análise de dados na nuvem. Pronto para a viagem? Escolha a bebida da sua preferência e aperte os cintos!
(copo caindo no chão)
(zumbido)
Anos atrás, a abordagem mais comum das empresas para ter infraestrutura de computação, big data incluído, era comprar servidores e instalá-los em data centers. Isso era chamado de colocação, colo. Mas os servidores usados para operações de dados não eram baratos, pois precisavam de muito armazenamento, consumiam muita eletricidade e exigiam muita manutenção para a durabilidade dos dados.
Assim, eram equipes inteiras dedicadas à infraestrutura. E, acredite, fui um desses analistas de infraestrutura que trabalhavam com data centers. É caro e angustiante.
Com esse cenário, somente empresas grandes podiam trabalhar com big data. E, consequentemente, a análise de dados não era popular. Era muito comum para esses servidores ter um controlador de armazenamento RAID replicando dados entre discos, aumentando o custo e a manutenção ainda mais.
No início dos anos 2000, as operações de big data estavam muito ligadas ao hardware subjacente, como mainframes e clusters de servidor. Embora isso fosse muito lucrativo para quem vendia hardware, era caro e pouco flexível para os consumidores. Aí, algo fantástico começou a acontecer. E o nome desse algo fantástico é Apache Hadoop.
Basicamente, o que o Hadoop faz é substituir esse hardware sofisticado por software instalado em sistemas operacionais. É isso mesmo. Com a ajuda do Hadoop e de estruturas de computação, os dados podiam ser distribuídos e replicados entre vários servidores por meio de sistemas distribuídos, eliminando a necessidade de hardware caro de replicação de dados para se começar a trabalhar com big data.
Bastava um equipamento de rede eficiente e os dados eram sincronizados pela rede com outros servidores. Ao abraçar falhas em vez de tentar evitá-las, o Hadoop ajudou a reduzir a complexidade do hardware. E quando você reduz a complexidade, reduz o custo.
E, ao reduzir o custo, você começa a democratizar big data, pois as empresas pequenas podem começar a usá-lo também. Bem-vindo ao boom de big data.
Falei do Hadoop originalmente, porque o Hadoop é o ecossistema de big data de código aberto mais popular. Existem outros. E o que eu queria salientar aqui é o conceito, não as estruturas ou os fornecedores específicos.
Ou seja, com a linha de base de hardware em um nível básico e aplicando todos os conceitos de big data ao software, por exemplo, replicação de dados, podemos começar a pensar em executar operações de big data em provedores capazes de fornecer máquinas virtuais com armazenamento e placa de rede anexados. Podemos começar a pensar em usar a nuvem para criar data lakes inteiros, armazenamento de dados e soluções de análise de dados.
Desde então, a computação em nuvem emergiu como uma alternativa atraente porque é exatamente o que ela faz. Você pode pegar máquinas virtuais, instalar o software que tratará da replicação dos dados, sistemas de arquivos distribuídos e ecossistemas de big data inteiros e ficar feliz sem ter que gastar muito dinheiro em hardware. A vantagem é que a nuvem ainda é capaz de fazer mais.
Muitos provedores de nuvem, como a Amazon Web Services, começaram a ver que os clientes estavam montando máquinas virtuais para instalar ferramentas e estruturas de big data. E, com base nisso, a Amazon começou a criar ofertas com tudo já instalado, configurado e pronto para usar. É por isso que existem serviços da AWS, como o Amazon EMR, o Amazon S3, o Amazon RDS, o Amazon Athena e muitos outros. Eles são o que chamamos de serviços gerenciados. Todos eles são serviços da AWS que operam no escopo dos dados. Em uma próxima lição, vou falar mais sobre alguns serviços e precisaremos criar nossa solução básica de análise de dados.
Outra grande vantagem de executar análise de dados na nuvem é poder parar de pagar por recursos de infraestrutura quando você não precisa mais deles. Isso é muito comum na análise de dados pois, devido à natureza das operações de big data, você pode precisar executar relatórios de vez em quando. E você pode fazer isso facilmente na nuvem montando um servidor ou serviços, usando-os, pegando o relatório de que precisa, salvando e desligando tudo.
Além disso, você pode temporariamente montar mais servidores para agilizar seus trabalhos e desligá-los quando terminar. E como você paga basicamente por tempo e recursos necessários, 10 servidores em execução por 1 hora tende a ter o mesmo preço de um servidor em execução por 10 horas. Basicamente, com a nuvem, você tem acesso a hardware sem ter que se preocupar com toda a carga envolvida na realização de operações de data center. É como o melhor de dois mundos.
Você assistiu ao vídeo?
Lembre-se, o teste faz perguntas sobre o vídeo desta unidade. Se ainda não assistiu, volte e faça isso agora. Assim, você poderá responder o teste.