Verlagern der Datenanalyse in die Cloud
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Erläutern der Herausforderungen bei der lokalen Datenerfassung und Nutzung von Analyse-Tools
- Nennen der Vorteile der Cloud-basierten Datenanalyse
Erstellen Ihrer Datenanalyselösung in der Cloud
Die Welt der Wirtschaft wurde im Laufe der Zeit immer komplexer, und damit wurden auch die Tools und Services immer leistungsfähiger, damit die Unternehmen Schritt halten können. Ein gutes Beispiel dafür ist die Entwicklung in der Datenanalyse – weg von teurer, lokaler Hardware hin zu Cloud-basierten Architekturen. Im folgenden Video widmet sich Raf den Unterschieden zwischen diesen beiden Ansätzen.
Abschrift anzeigen
[Raf] Sie wissen vielleicht schon, dass die Cloud flexibler, skalierbarer, sicherer, verteilter und resilienter ist. Ich möchte jedoch eher aus einer Datenperspektive betrachten, warum Cloud Computing für die Datenanalyse relevant ist. In diesem Abschnitt werde ich erläutern, warum die Cloud derzeit der beste Weg ist, um Datenanalysen durchzuführen, und warum sie sich für die Arbeit mit Big Data-Arbeitslasten bewährt hat. Legen wir also los.
Bevor wir über die Cloud sprechen, möchte ich eine kleine Zeitreise von etwa 10 Jahren machen und eine kurze Geschichte erzählen. Nach dieser Zeitreise werden Sie verstehen, warum jeder gerne Datenanalysen in der Cloud durchführt. Bereit für die Zeitreise? Holen Sie sich ein Getränk und legen Sie den Sicherheitsgurt an!
(Tasse zerbricht klirrend)
(anschwellendes Geräusch)
Vor Jahren lag der gängigste Ansatz von Unternehmen in Sachen Computing-Infrastruktur einschließlich Big Data darin, Server zu kaufen und in Rechenzentren zu installieren. Hier spricht man meist von Colocation oder Serverhoming. Server für Datenoperationen sind allerdings nicht billig, da sie viel Speicher benötigen, viel Strom verbrauchen und sorgfältig gewartet werden müssen, damit die Daten langlebig sind.
Man brauchte daher ganze Teams speziell für die Infrastruktur. Ich spreche aus Erfahrung, denn ich war einer dieser Infrastrukturanalysten, die mit Rechenzentren arbeiten. Es ist teuer und anstrengend.
Angesichts dieser Umstände konnten nur große Unternehmen mit Big Data arbeiten. Und infolgedessen war die Datenanalyse nicht sehr verbreitet. Diese Server waren meist mit einem RAID-Speicher-Controller ausgestattet, der Daten auf den Festplatten replizierte, was die Kosten und den Wartungsaufwand noch weiter erhöhte.
Anfang der 2000er Jahre bestand ein engerer Zusammenhang zwischen Big Data-Operationen und der zugrundeliegenden Hardware wie Mainframes und Server-Cluster. Für die Hardware-Anbieter war das zwar äußerst rentabel, für die Verbraucher jedoch teuer und unflexibel. Und dann begann eine fantastische Entwicklung. Und die hieß Apache Hadoop.
Im Wesentlichen ersetzt Hadoop die ganze schicke Hardware durch Software, die in Betriebssystemen installiert wird. Ja, Sie haben richtig gehört. Mit Hilfe von Hadoop und Computing-Frameworks konnten Daten über mehrere Server verteilt und repliziert werden, indem man verteilte Systeme verwendete. So war keine teure Hardware für die Datenreplikation mehr notwendig, um mit Big Data zu arbeiten.
Man brauchte nur effiziente Netzwerktechnik, und die Daten wurden über das Netzwerk mit anderen Servern synchronisiert. Da Hadoop Ausfälle einkalkulierte, anstatt sie zu vermeiden versuchte, konnte es die Hardware-Komplexität deutlich reduzieren. Und wenn man die Hardware-Komplexität senkt, senkt man auch die Kosten.
Und mit der Kostensenkung beginnt die Demokratisierung von Big Data, da sie nun auch kleinere Unternehmen nutzen konnten. So entstand der Big Data-Boom.
Ich habe zu Beginn Hadoop erwähnt, da Hadoop das beliebteste Open Source-Ökosystem für Big Data ist. Es gibt aber auch noch andere. Mir ging es hier nur um das Konzept und nicht um bestimmte Frameworks oder Anbieter.
Wenn wir ausreichende Basiswerte für die Hardware festlegen und alle Big Data-Konzepte auf Software anwenden, wie etwa die Datenreplikation, können wir mit der Ausführung von Big Data-Operationen bei Anbietern beginnen, die virtuelle Maschinen mitsamt Speicher und Netzwerkkarte bereitstellen können. Wir können dann auch darüber nachdenken, die Cloud zu nutzen, um ganze Data Lake-, Data Warehousing- und Datenanalyselösungen zu erstellen.
Seit damals hat sich Cloud Computing zu einer attraktiven Alternative entwickelt, da es genau das tut. Sie können virtuelle Maschinen einrichten, die Software für die Datenreplikation installieren, verteilte Dateisysteme und ganze Big Data-Ökosysteme einrichten, und damit glücklich werden, ohne viel für Hardware investieren zu müssen. Der Vorteil ist, dass die Cloud noch viel mehr bietet.
Viele Cloud-Anbieter, wie z. B. Amazon Web Services, stellten fest, dass Kunden virtuelle Maschinen einrichteten, um Big Data-Tools und -Frameworks zu installieren. Amazon begann deshalb, Komplettangebote zu erstellen, bei denen bereits alles installiert, konfiguriert und einsatzbereit war. So entstanden AWS-Services wie Amazon EMR, Amazon S3, Amazon RDS, Amazon Athena und viele andere. Dies sind sogenannte Managed Services. Alle diese AWS-Services arbeiten im Datenbereich. In einer späteren Lektion befassen wir uns eingehender mit einigen Services, die wir benötigen, um unsere grundlegende Datenanalyselösung aufzubauen.
Ein weiterer großer Vorteil der Datenanalyse in der Cloud besteht darin, dass man nicht mehr für Infrastrukturressourcen bezahlt, wenn man sie nicht mehr benötigt. Das kommt bei der Datenanalyse öfter vor, da bei Big Data-Operationen Berichte nur in bestimmten Abständen generiert werden müssen. Das ist in der Cloud problemlos möglich: Sie starten Server oder Services, nutzen sie, erstellen den gewünschten Bericht, speichern ihn und schalten dann alles ab.
Außerdem können Sie vorübergehend zusätzliche Server starten, um ihre Aufträge zu beschleunigen, und am Ende wieder abschalten. Und da Sie hauptsächlich für Zeitdauer und Ressourcennutzung bezahlen, kosten 10 Server für eine 1 Stunde meist genauso viel wie ein Server für 10 Stunden. Im Grunde haben Sie mit der Cloud Zugang zu Hardware, ohne sich um den Betrieb eines Rechenzentrums kümmern zu müssen. Die Cloud ist sozusagen das Beste aus beiden Welten.
Haben Sie sich das Video angesehen?
Denken Sie daran: Im Quiz am Ende dieser Einheit werden Ihnen Fragen zum Inhalt des Videos gestellt. Falls Sie das Video noch nicht angesehen haben, sollten Sie das jetzt tun. Dann sind Sie auf die Quizfragen vorbereitet.