データセットの内容を調べる
学習の目的
この単元を完了すると、次のことができるようになります。
- Tableau Public アカウントを設定する。
- このトレイルで使用する未加工データについて説明する。
- Tableau データモデルに関する主な用語を定義する。
Tableau Public でのデータ分析について学ぶ
Tableau を使用する人々にとって、データ分析について学習する最適な方法は、実際にデータを分析することです。データを分析する最適な方法は、興味のある質問を投げかけることです。このモジュールは、Tableau の使い方について学習するトレイルの一環です。そこで、皆さんに興味をもって学んでいただくために、『Great British Bake Off (ブリティッシュベークオフ)』というテレビ番組を想定したデータセットを用意しました。
もちろん、番組の視聴者やアマチュアの料理人でなくてもこのデータを理解できます。念のために説明すると、この番組は英国のリアリティショーで、毎回出場者 (アマチュアベーカー) が「Signature Bake (オリジナルチャレンジ)」「Technical Challenge (テクニカルチャレンジ)」「Showstopper (マスターピースチャレンジ)」という 3 つの課題に挑戦します。各エピソードの最後に、3 つの課題の出来によってベーカーの 1 人が脱落し、別の 1 人がスターベーカーに選ばれます。最終回は勝ち残った 3 人の頂上決戦です。
ここで、本日のメニューを見てみましょう。まず、必要な道具 (Tableau Public アカウント)、材料 (データセットの詳細)、駆使する手法 (データリレーションシップ) について説明します。
道具を準備する: Tableau Public
皆さんに取り組んでいただく Tableau のインタラクティブな単元では、Tableau Public の Web 作成インターフェイスをプレイグラウンドとして使用します。一度アカウントに接続したら、別のタブに移動したり、別のウィンドウに切り替えたりする必要がありません。その場ですべて実行できます! では、Tableau Public アカウントを作成して準備を整えましょう。
すでに Tableau Public アカウントをお持ちの方は、次のセクションに進むことができます。
Tableau Public アカウントは無料です。Tableau Public についての詳細は、「Tableau Public でのデータのストーリーテリング」を参照してください。
-
Tableau Public アカウントにサインアップします。
- 強力なパスワードなど、各自の情報をフォームに入力します。
- 続いて、[CREATE MY ACCOUNT (マイ アカウントの作成)] をクリックします。
- 次の単元でこのユーザー名とパスワードを使用してプレイグラウンドに接続するため、すぐに確認できるようにしておきます。
- @tableau.com から有効化メールが届きます。
- 強力なパスワードなど、各自の情報をフォームに入力します。
- 受信したメールからアカウントを有効化します。アカウントをプレイグラウンドにリンクする前に有効化しておく必要があります。
アカウントを作成すれば、意欲的なデータ愛好家が集うコミュニティのメンバーになり、あなたの取り組みや学習ジャーニーでサポートを受けることができます。
材料を集める: データセット
料理上手なベーカーは、混ぜ始める前に材料を揃えておくことの重要性を心得ています。
- このトレイル全体で使用する zip 形式のデータファイルをダウンロードします。
- ファイルを解凍すれば簡単にアクセスできます。
次の 5 つの .csv ファイルで構成されます。
- Bakers
- ChallengeBakes
- Episodes
- Outcomes
- Seasons
各テーブルにどのようなデータが記載されているのか見てみましょう。完全なデータディクショナリについては、Tableau Public のデータディクショナリを参照してください。
Bakers テーブルには 5 つのフィールドがあり、168 行で構成されています。ここには、各出場者に関するデータ (名前、出場時の年齢、顔写真へのリンクなど) が示されています。
[代替テキスト: フィールド名がハイライトされている [Bakers.csv] テーブルのスプレッドシートビュー。]
ChallengeBakes テーブルには 8 つのフィールドがあり、1003 行で構成されています。ここには、そのエピソードで各出場者が何を作り、「Technical Challenge (テクニカルチャレンジ)」でどのような出来だったのかに関するデータが示されています。
[代替テキスト: フィールド名がハイライトされている [Challenges.csv] テーブルのスプレッドシートビュー。]
Episodes テーブルには 12 のフィールドがあり、134 行で構成されています。ここには、各エピソードに関する情報 (指定されたチャレンジの内容やテーマなど) が示されています。
[代替テキスト: フィールド名がハイライトされている [Episodes.csv] テーブルのスプレッドシートビュー。]
Outcomes テーブルには 9 つのフィールドがあり、964 行で構成されています。ここには、各エピソードにおけるそれぞれのベーカーの評価に関する情報が示されています。最終エピソードは結果の形式が異なるため、ここには表示されていません。
[代替テキスト: フィールド名がハイライトされている [Outcomes.csv] テーブルのスプレッドシートビュー。]
Seasons テーブルには 10 のフィールドがあり、56 行で構成されています。ここには、審査員、司会者、勝者、ネットワーク、各種のストリーミングプラットフォームでどのシーズンが放映されたかに関する情報が示されています。シーズンごとに 4 つの行がありますが、これは司会者と審査員の列には出演パターンに応じて、4 種類の組み合わせがあるためです。
[代替テキスト: フィールド名がハイライトされている [Seasons.csv] テーブルのスプレッドシートビュー。]
各自の手法を確認する: 結合と関係
データが複数のテーブルに格納されているため、テーブル同士がどのように結び付いているかを Tableau に伝えるデータモデルを構築する必要があります。テーブルをつなげる場合、ユニオン、各種の結合、関係など、数種のオプションがあります。
ユニオンは、同じ列構造の各テーブルの行を合体させるという方法で、データのテーブルをマージします。元のテーブル名を追跡する新しい列が追加されます。
この方法は、Excel で append 演算子を使用して、スプレッドシートの一番下に新しいデータを追加する場合と似ています。
[代替テキスト: 3 行のデータからなる 2 つのテーブルと、この 2 つが合体して 6 行になったテーブル。元のテーブルの名前を示す新しい列が追加されています。]
結合は、新しい列を追加するという方法でデータのテーブルをマージします。この方法は、Excel の vlookup と似ています。
[代替テキスト: 2 つのデータテーブルと、4 つの結合例のテーブル。行数が減った内部結合、2 つの列に null がある外部結合、1 つの列に null がある左結合と右結合が示されています。]
この例では、Name (名前) 列を基準にテーブルが結合されています。両方のテーブルに同じ名前がある場合は、その行が突き合わされます。
-
内部結合: 両方のテーブルに同じ名前がある行が保持されます。一致する値がない行は削除されるため、結合後のテーブルに null はありません。
-
外部結合: 両方のテーブルの全行が保持され、一致する名前がない行は値が null になります。行が削除されることはありません。
-
左外部結合: 左側のテーブルの全行が保持され、そこに右側のテーブルの列が取り込まれます。一致する名前がない行は値が null になります。名前が右側のテーブルにしかない行は削除されます。
-
右外部結合: 右側のテーブルの全行が保持され、そこに左側のテーブルの列が取り込まれます。一致する名前がない行は値が null になります。名前が左側のテーブルにしかない行は削除されます。
関係は、Tableau でデータを組み合わせる既定の方法です。どのフィールドでどのテーブルを関連付けるかを確立する関係句を使用して、関係を構築します。(結合に精通している場合、関係句は結合句と似ています。)
関係を設定すると、2 つのテーブルをどのように結合させることができるかが定義されますが、そうした情報を保持するだけで、結合やユニオンのようにテーブルがすぐマージされることはありません。データ ソースは関連付けられた後も、極めて柔軟で動的な状態で維持されます。実際に使用されるまで、データが 1 つの固定された構成にまとめられることがないためです。分析にデータ ソースを使用する時点で、Tableau がその関係情報を使用して、バックグラウンドで必要な結合を自動的に生成します。すごいですよね?
データモデルをプレビューする
ではここで、後続の単元でどのようなデータモデルを構築するのか見てみましょう。
[代替テキスト: データセットのテーブル間の関係を示す図。左端の Episodes に 2 つの分岐があります。一方は [Season (シーズン)] フィールドを介した Seasons への関係です。もう一方は [Season (シーズン)] フィールドと [Episode (エピソード)] フィールドを介した Episodes から ChallengeBakes への分岐です。ChallengeBakes にも 2 つの分岐があります。一方は [Baker (ベーカー)] フィールドと [Season (シーズン)] フィールドを介した Bakers テーブルへの関係です。もう一方は [Baker (ベーカー)] フィールドと [SeasonEpisode] フィールドを介した Outcomes への関係です。]
モデルは段階的に構築していくため、心配する必要はありません。
次の単元では、Tableau Public で上記の手法を実践します。Tableau Public アカウントの認証資格情報を確認して、プレイグラウンドをリンクできるようにします。