Skip to main content

データ分析をクラウドに移行する

学習の目的

この単元を完了すると、次のことができるようになります。

  • オンプレミスデータ収集および分析ツールの課題を説明する。
  • クラウドベースのデータ分析の利点を挙げる。

クラウドでデータ分析ソリューションを構築する

時間の経過と共にビジネスがより複雑になってきた中で、組織が後れを取らないようにツールやサービスもさらに強力になってきました。その好例が、データ分析の高価なオンプレミスハードウェアからクラウドベースアーキテクチャへの進化です。次の動画では、Raf がこの 2 つの手法の違いについて説明しています。

トランスクリプトを表示する

- [Raf] 皆さんはすでにクラウドがより柔軟で、拡張性が高く、安全で、分散していて、回復力が高いことをご存じかもしれません。ただし、なぜクラウドコンピューティングがデータ分析に関係があるかという点について、もう少しデータ寄りの考え方を紹介したいと思います。このセクションでは、なぜ今日のデータ分析を実行する最良の方法がクラウドであり、作業負荷を処理するための方法として定着しているかを説明します。さっそく始めましょう。

クラウドについての話を始める前に、10 年ほど時を遡って、短いストーリーを紹介します。時を遡ってみれば、なぜ誰もがデータ分析をクラウドで実行することを好むかを自然に理解できます。ジャーニーの準備はできましたか? お好みの飲み物を持って、シートベルトを締めてください!

(床に落ちるカップ)

(ヒューという音)

何年も前には、企業がビッグデータを含む計算インフラストラクチャを持つ最も一般的な方法は、サーバーを購入してデータセンターに設置することでした。これは一般にコロケーションまたはコロと呼ばれています。問題は、データ操作に利用されるサーバーは大量のストレージを必要とするために安価ではなく、多くの電力を消費し、データの永続性に関して慎重なメンテナンスが必要だったことです。

そのため、専任のインフラストラクチャチームが必要でした。本当のことです。なんといっても、私はデータセンターに勤務するインフラストラクチャアナリストの 1 人だったのですから。コストもかかり、業務も大変でした。

その状況では、ビッグデータを操作できるのは大企業のみでした。そのため、データ分析は一般的ではありませんでした。そのようなサーバーは RAID ストレージコントローラーを備えていて、データが複数のディスクに複製されていることが非常に多かったため、コストとメンテナンス作業がさらに増大していました。

2000 年代初頭には、ビッグデータ操作はメインフレームやサーバークラスターといった基盤となるハードウェアと密接に関連していました。これはハードウェアを販売する側にとっては収益性が非常に高いことでしたが、消費者にとっては高価であり、柔軟性もありませんでした。その後、素晴らしいことが起きました。その素晴らしいこととは Apache Hadoop です。

Hadoop は主に、あのすべての高機能なハードウェアをオペレーティングシステム内にインストールされたソフトウェアに置き換えます。そうです。Hadoop とコンピューティングフレームワークがあれば、分散システムを使用して複数のサーバーにデータを分散して複製することができ、高価なデータ複製ハードウェアがなくてもビッグデータを操作できるようになりました。

必要なものは効率的なネットワーク機器のみで、データはネットワーク上で他のサーバーと同期されました。失敗を避けようとするのではなく失敗を活用することで、Hadoop はハードウェアの複雑度を下げました。ハードウェアの複雑度が下がると、コストも下がります。

コストが下がるとビッグデータが民主化され、中小企業もビッグデータを活用できるようになりました。ビッグデータブームへようこそ。

ここで Hadoop を取り上げたのは Hadoop が最も人気のあるオープンソースのビッグデータエコシステムであるためですが、他のものもあります。ここで強調したいのは概念であって、特定のフレームワークやベンダーではありません。

重要なのは、ハードウェアを基本レベルのものにして、すべてのビッグデータ概念 (データ複製など) をソフトウェアに適用することで、ストレージとネットワークカードが付属する仮想マシンを提供できるプロバイダーでビッグデータの運用を検討できるということです。クラウドを使用してデータレイク、データウェアハウス、データ分析ソリューション全体を構築することを考え始めることができます。

それ以降、まさにそれを実現できるクラウドコンピューティングは魅力的な代替手段として台頭してきました。仮想マシンを使用して、データ複製、分散ファイルシステム、ビッグデータエコシステム全体を処理するソフトウェアをインストールすることができ、ハードウェアに多額の費用を注ぎ込む必要はありません。それだけで終わらないのもクラウドの利点です。

Amazon Web Services などの多くのクラウドプロバイダーは、お客様が仮想マシンを作成してビッグデータツールやフレームワークをインストールしていることに気づきました。それに基づき、Amazon はすべてがインストール、設定済みでそのまま使用できる製品の作成を開始しました。それが、Amazon EMR、Amazon S3、Amazon RDS、Amazon Athena などの多数の AWS サービスが存在する理由です。このようなサービスは管理サービスと呼ばれるものです。そのすべてはデータ領域で使用される AWS サービスです。後のレッスンでは、基本的なデータ分析ソリューションを

作成するために必要ないくつかのサービスについて説明します。クラウドでデータ分析を実行するもう 1 つの大きな利点は、インフラストラクチャリソースが不要になればその費用の支払をやめることができるということです。これはデータ分析では非常に一般的です。ビッグデータ操作の性質上、レポートを実行する必要があるのは時折であるためです。それはクラウドで簡単に実現できます。サーバーやサービスを作成して使用し、必要なレポートを作成して保存してから、すべてをオフにします。

さらに、一時的に追加のサーバーを作成して作業をスピードアップし、完了したらオフにすることもできます。費用のほとんどは必要な時間とリソースに対して支払うため、10 台のサーバーを 1 時間稼働するのと 1 台のサーバーを 10 時間稼働するでは同じ価格であることが一般的です。基本的に、クラウドを使用すると、データセンター運用に伴う負担を気にせずにハードウェアにアクセスできます。両方の長所を活用できるようなものです。

テストに備えて動画を視聴する

この単元のテストには動画の内容に関する問題があります。まだ視聴していない場合は、戻って視聴してください。準備ができたら、テストに進んでください。

無料で学習を続けましょう!
続けるにはアカウントにサインアップしてください。
サインアップすると次のような機能が利用できるようになります。
  • 各自のキャリア目標に合わせてパーソナライズされたおすすめが表示される
  • ハンズオン Challenge やテストでスキルを練習できる
  • 進捗状況を追跡して上司と共有できる
  • メンターやキャリアチャンスと繋がることができる