Spostare l'analisi dei dati sul cloud
Obiettivi di apprendimento
Al completamento di questa unità, sarai in grado di:
- Spiegare le sfide poste dagli strumenti di raccolta e analisi dei dati on-premise.
- Elencare i vantaggi dell'analisi dei dati basata sul cloud.
Creare la propria soluzione di analisi dei dati nel cloud
Le attività aziendali diventano sempre più complesse con il passare del tempo, mentre strumenti e servizi diventano sempre più potenti per consentire alle organizzazioni di stare al passo. Un esempio indicativo è l'evoluzione dell'analisi dei dati, che è passata dai costosi hardware on-premise alle architetture basate su cloud. Nel video che segue, Raf mette in luce le differenze tra questi due approcci.
Visualizza la trascrizione
- [Raf] Forse sapete già che il cloud è più flessibile, scalabile, sicuro, distribuito e resiliente. Ma voglio adottare un approccio più legato ai dati per spiegare il motivo per cui il cloud computing è pertinente all'analisi dei dati. In questa sezione, spiegherò perché il cloud è il modo migliore di eseguire l'analisi dei dati oggi e perché rappresenta una soluzione affidabile per l'esecuzione di carichi di lavoro su big data. Iniziamo.
Prima di parlare di cloud, torniamo indietro nel tempo di circa una decina d'anni. Vi racconterò una storia. Dopo essere tornati indietro nel tempo, vi verrà naturale capire perché a tutti piace fare l'analisi dei dati nel cloud. È tutto pronto? Prendete le borracce e partiamo!
(la tazza cade sul pavimento)
(vortice)
Anni fa, l'approccio più comune per le aziende che volevano un'infrastruttura di calcolo, inclusi i big data, era di comprare i server e installarli nei data center. Di solito questa impostazione è chiamata "colocation". Ma i server usati per le operazioni sui dati non sono economici, poiché richiedono molto spazio di archiviazione, hanno alti consumi energetici ed esigono un'attenta manutenzione per assicurare la durata dei dati.
Quindi, occorrono team interamente dedicati all'infrastruttura. E potete fidarvi, sono stato anch'io un analista di infrastruttura che lavorava con i data center. È un approccio oneroso in termini di costi e di impegno.
In questo scenario, solo le grandi aziende potevano lavorare con i big data. Di conseguenza l'analisi dei dati non era popolare. Era molto comune che i server fossero dotati di un controller di archiviazione RAID che replicava i dati su diversi dischi, aumentando ulteriormente i costi e il lavoro di manutenzione.
Nei primi anni 2000, le operazioni sui big data erano strettamente correlate all'hardware soggiacente, ad esempio mainframe e cluster di server. Per quanto fosse redditizio per i fornitori di hardware, questo sistema era caro e non flessibile per i consumatori. Poi arrivò una cosa straordinaria chiamata Apache Hadoop.
Quel che Hadoop fa, in pratica, è sostituire tutto quell'hardware sofisticato con software installato nei sistemi operativi. Proprio così. Con l'aiuto di Hadoop e dei computing framework, i dati potevano essere distribuiti e replicati su più server utilizzando sistemi distribuiti ed eliminando la necessità di quel costoso hardware di replica dei dati per iniziare a lavorare con i big data.
Tutto ciò che serviva era un'infrastruttura di rete efficiente, e i dati venivano sincronizzati attraverso la rete sugli altri server. Accettando gli errori invece di cercare di evitarli, Hadoop ha contribuito a ridurre la complessità dell'hardware. E quando riduci la complessità dell'hardware, riduci anche i costi.
Riducendo i costi si dà inizio alla democratizzazione dei big data, perché anche le aziende più piccole possono iniziare a sfruttarli. È nato così il boom dei big data.
Ho citato Hadoop all'inizio, perché Hadoop è l'ecosistema di big data open-source più popolare. Ne esistono altri. Quello che volevo mettere in evidenza è il concetto, piuttosto che framework o fornitori specifici.
Il fatto è che, allineando l'hardware su un livello di base e applicando tutti i concetti relativi ai big data al software, ad esempio la replica dei dati, si è potuto iniziare a eseguire operazioni con i big data su provider in grado di fornire macchine virtuali associate a spazio di archiviazione e a una scheda di rete. Possiamo iniziare a pensare di usare il cloud per creare interi data lake, data warehousing e soluzioni di analisi dei dati.
Da allora, il cloud computing è emerso come alternativa allettante perché fa esattamente questo. Potete ottenere macchine virtuali, installare software che gestiranno la replica dei dati, file system distribuiti e interi ecosistemi di big data e raggiungere i vostri obiettivi senza spendere un patrimonio in hardware. Il vantaggio sta nel fatto che il cloud non si ferma lì.
Molti provider cloud, come Amazon Web Services, hanno visto che i clienti ricorrevano sempre di più alle macchine virtuali per installare strumenti e framework per i big data. Per questo motivo, Amazon ha iniziato a proporre offerte con tutto il necessario già installato, configurato e pronto all'uso. Ecco il perché di tanti servizi AWS, come Amazon EMR, Amazon S3, Amazon RDS, Amazon Athena e molti altri. Sono quelli che chiamiamo servizi gestiti. Sono tutti servizi AWS che operano nell'ambito dei dati. In una delle prossime lezioni, mi dilungherò su alcuni servizi di cui avremo bisogno per creare la nostra soluzione di base per l'analisi dei dati.
Un altro grande vantaggio dell'eseguire l'analisi dei dati nel cloud è la possibilità di smettere di pagare per le risorse dell'infrastruttura quando non se ne ha più bisogno. Accade molto spesso nell'analisi dei dati visto che, a causa della natura stessa delle operazioni con i big data, è possibile che ogni tanto dobbiate generare dei rapporti. E potete farlo facilmente nel cloud avviando i server o i servizi, usandoli, generando il rapporto che vi serve e salvandolo per poi spegnere tutto.
In più, potete temporaneamente avviare più server per velocizzare i processi e spegnerli quando avete finito. E dato che pagate soprattutto per il tempo e le risorse necessarie, 10 server in esecuzione per 1 ora di solito comportano lo stesso costo di un solo server in esecuzione per 10 ore. In sostanza, con il cloud avete accesso all'hardware senza dovervi preoccupare di tutti gli oneri derivanti dalle operazioni dei data center. È un po' come avere a disposizione il meglio dei due mondi.
Hai guardato il video?
Ricorda, il quiz riguarda il video di questa unità. Se non lo hai ancora guardato, fallo ora. Poi potrai rispondere al quiz.