Entender casos de uso de análise de dados comuns
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Explicar por que a análise de dados é relevante no mundo dos negócios atual.
- Explicar como as ferramentas de análise de dados são usadas em cenários comuns.
Usar análise de dados em um mundo complexo
O que jogos, comércio eletrônico e mídias sociais têm em comum? Cada uma dessas verticais produz muitos dados que as organizações usam para melhorar seus serviços e detectar e solucionar problemas. No vídeo a seguir, Raf explora as verticais comuns e os casos de uso em que a análise de dados está presente no dia a dia.
Estamos falando de 100 linhas de dados? 1.000? Em alguns casos, podem ser centenas de milhares, ou até milhões! Como trabalhar com isso tudo?
O teste no final desta unidade faz perguntas sobre o conteúdo deste vídeo. Assista ao vídeo para obter as informações necessárias para responder às perguntas no final desta unidade.
Exibir transcrição
[Raf] Agora que você sabe a diferença entre os vários tipos de análise de dados, deixa eu mostrar alguns exemplos de como a análise de dados provavelmente aparece atualmente na sua vida tanto como consumidor quanto profissionalmente. A análise de dados costuma aparecer em várias verticais atualmente, por exemplo, jogos, feeds de mídias sociais, comércio eletrônico, lojas online, sites, estatísticas, também chamadas de fluxo de cliques; mecanismos de recomendação; Internet das coisas, ou IoT; processamento de logs e muitas outras.
Deixe-me dar alguns exemplos de como a análise de dados é valiosa em alguns desses cenários para que você possa ver o objetivo exato da análise de dados nesses contextos. Digamos que você goste de jogar jogos de computador como eu. Quem não gosta, não é?
Então se você gosta de jogar, seja no telefone, no computador ou no console, talvez esteja familiarizado com a caixa de seleção que costuma ter que marcar antes de começar a jogar. Essa caixa de seleção costuma ter uma mensagem do tipo Enviar estatísticas de dados anônimas para desenvolvedores de jogos a fim de melhorar as experiências de jogos, ou algo assim. O que isso faz é basicamente permitir a coleta de informações sobre como você joga para detectar possíveis paradas, falhas de design e outros dados. Fica claro neste caso que os dados da vida real, como você jogar seu jogo, estão sendo transformados em informações que ajudam os desenvolvedores a contornar possíveis problemas e melhorar a experiência de jogo. É exatamente por isso que existe a análise de dados e é por isso que é tão relevante para o mundo moderno.
Talvez você se pergunte "Por que isso é assim agora? Eu jogo desde criança e não era assim. Os jogos vinham em cartuchos. Nós os comprávamos e jogávamos, certo?" Bem, sim. Mas, se você pensar comigo, aqueles jogos não eram tão complexos como os jogos que temos hoje. E esse é o meu ponto.
A análise ajuda as pessoas a desenvolver insights, e esses insights as ajudam a solucionar problemas complexos. Não interessa se tem a ver com jogos, mercado de ações, dados imobiliários, informações sobre tráfego, sistemas de computação de moda, logs de segurança ou servidores web, a análise de dados ajuda a responder a cenários complexos.
Com o preço dos armazenamentos diminuindo a cada dia, as empresas costumam coletar dados que atualmente podem não ter um uso específico. No entanto, se uma questão aparecer amanhã, a resposta pode estar nos dados que elas coletaram antes.
O mundo agora está ficando mais complexo do que era há 10 anos. E ter a ajuda de sistemas de computação é essencial por dois motivos principais. Escalabilidade e tomada de decisões com base em dados. Outra grande parte da análise de dados é a análise de logs. Deixa eu me aprofundar nisso, pois é isso que será o foco principal deste curso, especialmente em relação a logs de segurança.
Quando falamos sobre análise de logs, costumamos falar sobre as informações produzidas pelos sistemas de computação com base em eventos. Esse evento pode ser uma solicitação HTTP feita a uma página da Web, informações de registro em log de usuários, chamadas de API ou outro tipo de solicitações. API é a sigla de Interface de programação de aplicativo, que é basicamente uma interface de computação que define interações entre vários intermediários de software.
Ela define os tipos de chamada ou solicitação que podem ser feitos, como fazê-los, os formatos de dados que podem ser usados, as convenções a serem seguidas, etc. E, do ponto de vista da análise de dados, é muito comum registrar todas essas atividades em algum local.
Um exemplo clássico da análise de dados é usar logs de servidor Web para extrair insights sobre visitantes em um site. Digamos que toda solicitação feita a um servidor HTTP seja registrada em logs como arquivos em um sistema de arquivos. Eles costumam ser chamados de logs de acesso. Se você tem uma nova linha adicionada ao log de acesso para cada visita em seu site, pode dizer que o número de linhas nesse log é equivalente ao número de solicitações servidas pelo servidor Web.
Se você tem apenas um servidor e um site pequeno com algumas visitas por minuto, pode usar ferramentas básicas, como editores de texto, para analisar esses arquivos e extrair o que você procura. Mas se você quiser fazer algo ligeiramente mais útil do que somar linhas no arquivo de log, é essencial usar uma ferramenta de análise de dados.
Incentivamos o uso de ferramentas de análise de dados em qualquer lugar, mas precisamos das profissionais que lidam com escala quando queremos agregar e visualizar logs. Imagine que você tenha dezenas de servidores Web tentando milhares de usuários por segundo. Você pode estimar que cada arquivo de log em cada servidor ficará cheio rapidamente. Ou seja, você precisa ter todos esses dados concentrados em algum lugar.
Além disso, você pode precisar ter uma maneira de visualizar esses dados em um gráfico de linhas, o que poderia ajudar você a identificar picos, também chamados de desvios ou valores atípicos. Outro grande uso da análise de dados atualmente é na segurança de dados. Se você tem sistemas produzindo logs de segurança de forma facilmente acessível para extrair análises, tem uma grande vantagem se precisa indicar quando uma solicitação foi feita, por quem, de onde, quando e qual foi a resposta do sistema à solicitação.
Se você chegar ao nível de fazer análise preditiva nesses dados, poderá até chegar a um ponto em que bloqueará automaticamente solicitações inválidas para sistemas de computadores antes que aconteçam ou criará uma arquitetura autocurável que começa a criar um ambiente de failover quando um ambiente atual apresenta degradação.
Isso pode ser alcançado com a ajuda de ferramentas de automação de infraestrutura na nuvem. Existe um serviço da AWS chamado AWS CloudTrail, que registra atividade de API feita em uma conta AWS, e outro chamado Amazon S3, que é um serviço de armazenamento. Vou falar rapidamente sobre eles.
Isso é o que o CloudTrail armazena sempre que você ou alguém entra na sua conta AWS usando o Console de gerenciamento da AWS. Isso fica armazenado no serviço Amazon S3 e contém informações como quem fez a solicitação, de que endereço IP, o que era a solicitação, qual foi a resposta e outras informações de conformidade úteis que podem virar prova rapidamente, se necessário. Pela sua natureza, o CloudTrail é um serviço que permite a governança da infraestrutura, a auditoria operacional e a auditoria de risco de sua conta AWS.
Mas se você precisar sempre analisar os dados de texto do CloudTrail, isso pode ser difícil. Ou seja, aprender sobre análise de dados ajuda muito a ver o que é possível fazer com esses dados de conformidade. Se você tivesse ferramentas de visualização de dados para informações produzidas pelo CloudTrail, poderia ter painéis de segurança com gráficos e alertas de atividades incomuns. Se você começar a ver logs de atividades de falhas de login, pode ser porque alguém está tentando entrar na sua conta AWS ou porque você mudou a senha e se esqueceu disso.
Costumo dizer que a análise de segurança de dados não é boa apenas para relatórios de conformidade, mas também para solução de problemas. Se você aplicar esse conceito a pacotes de firewall, atividades de rede, balanceadores de carga, logs de servidor e outros tipos de tópicos de infraestrutura, pode identificar valores atípicos facilmente e solucionar problemas rapidamente. Mas pense sempre no que mais você poderia fazer com a análise de dados e como ela ajuda a obter melhores insights sobre o que está acontecendo, seja sobre segurança, melhoria de produto, melhoria de experiência do cliente ou outro aspecto na área da análise de dados.
Como o céu é o limite, no próximo vídeo vou falar sobre por que fazer tudo isso na nuvem traz grandes vantagens e como isso ajuda a viabilizar a análise de dados em qualquer lugar, a qualquer hora e para todo mundo.
Você assistiu ao vídeo?
Lembre-se, o teste faz perguntas sobre o vídeo desta unidade. Se ainda não assistiu, faça isso agora. Assim você poderá responder o teste.