セマンティックレイヤーを構築する
学習の目的
この単元を完了すると、次のことができるようになります。
- Tableau のデータペインをナビゲートする。
- Tableau でフィールドタイプがどのように配置されるか説明する。
- データ型を挙げる。
- Tableau で重複フィールドがどのように処理されるか説明する。
始める前に
このモジュールを受講する前に、必ず「Tableau データモデル」を修了してください。ここでの作業は、同モジュールでの概念や作業に基づいています。このモジュールで操作するデータがどのようなものか理解し、Tableau の基本的な使い方を習得します。
データの準備を整える
有り合わせの材料や雑然とした中でも素晴らしい料理を作る人もいれば、周到な準備が欠かせない人もいます。こうした人々は、準備万端な状態で料理に取りかかります。バターをさいの目に切って冷やしておけば、パイを焼くときに手間取らず、アイシングスパチュラを必要なときに手が届く場所に置いておけば、ケーキをスムーズに飾り付けることができます。
データや分析についても同じことが言えます。データを操作しやすいように整理しておくということです。こうした前処理をメタデータ管理、あるいはデータのセマンティックレイヤーの開発といいます (ただし、セマンティックレイヤーはここで取り上げるものよりはるかに複雑です)。
Tableau では、ビジュアル分析のサイクルを重視しています。つまり、分析のフローでメタデータ管理を実行可能ということです。ここでは、この方法について学習します。
Tableau ワークスペースをナビゲートする
Tableau のオーサリング環境は、分析と、データの直接的な操作の両方を目的に構築され、次のものを管理できます。
- データ型
- 既定の集計
- 計算
- フィールドの分割または結合
- グルーピングと階層
以下はワークスペースのプレビューで、データの操作時に各部がどのように連携するか示しています。
- ツールバー: ステップを戻る、データ ソースの追加、シートのクリア、画像調整の管理などを実行できます。
-
[データ (データ)] ペイン: データとそのフィールドのテーブルを表示します。[データ (データ)] ペインからフィールドをドラッグして Viz を構築します。
-
シート タブ: [データ Source (データ ソース)] タブもあります。Excel のシートや Google スプレッドシートのタブと同様に、各種の Viz を切り替えることができます。
-
[Marks (マーク)] カード: その上に [Filters (フィルター)] シェルフと [Pages (ページ)] シェルフがあります。[Marks (マーク)] カードは、Viz のマークの外観の大半を管理します。
- [Marks (マーク)] カードには [Color (色)]、[Size (サイズ)]、[Text (テキスト)]、[Detail (詳細)]、[Tooltip (ツールヒント)] のようなプロパティがあります。こうしたプロパティをシェルフということもあります。ここで重要な点は、プロパティがドロップエリアで、フィールドを配置したり、Viz の構造を変更したりできることです。どのプロパティが表示されるかは、マークタイプによって異なります。
- [Marks (マーク)] カードには [Color (色)]、[Size (サイズ)]、[Text (テキスト)]、[Detail (詳細)]、[Tooltip (ツールヒント)] のようなプロパティがあります。こうしたプロパティをシェルフということもあります。ここで重要な点は、プロパティがドロップエリアで、フィールドを配置したり、Viz の構造を変更したりできることです。どのプロパティが表示されるかは、マークタイプによって異なります。
-
[Columns (列)] シェルフと [Rows (行)] シェルフ: Viz の主な構造を管理します。
- Viz キャンバス: 魔法が起こる場所です! また、フィールドをシェルフに配置するのではなく、[データ (データ)] ペインから直接ここにドラッグアンドドロップできます。
このモジュールで Tableau を実際に操作する前に、こうした UI の詳細を確認しておくことが重要です。
[データ (データ)] ペインについて知る
[データ (データ)] ペインには、使用しているデータ ソース、フィールドを見つける検索バー、テーブルとそのフィールドのリストが表示されます。
フィールドはアルファベット順に並べられていますが、横線で区切られ、線の上にディメンション、線の下にメジャーが示されます。さらに、青と緑に色分けされ、青はフィールドが不連続、緑は連続であることを示します。
通常、ディメンションはカテゴリデータ (ブランド、色など) のフィールドで、メジャーは計算可能な数値データ (長さ、価格など) のフィールドです。フィールドをディメンションからメジャーに、またはその逆に変更するには、フィールドをテーブルの線の上または下にドラッグするだけです。数値 ID のようなフィールドを誤ってメジャーに割り当てたような場合も簡単に変更できます。
また、各フィールドの前にデータ型アイコンが付いています。たとえば、日付にはカレンダー、文字列 (テキスト) フィールドには Abc、数値フィールドには # 記号が示されています。データ ソース (データベースなど) にデータ型が定義されていない場合、通常は Tableau が正しいデータ型を識別します。
フィールドのデータ型を変更するには、フィールドの前のアイコンをクリックして、正しいデータ型を選択します。フィールドを適切な種類の計算や表示に正しく使用できるようにする場合に、この処理が度々行われます。たとえば、日付フィールドを月、週、日の順にドリルダウンしていく場合などです。
重複フィールドに注意する
データセットに複数のテーブルがある場合は、同じ名前のフィールドが複数存在する可能性が高まります。Tableau では、どのフィールド名も一意でなければなりません。したがって、フィールドの末尾に (テーブル名) が付いている場合は、データセットのどこかにその名前のフィールドがあるということです。
重複する可能性が高いのは、テーブルが相互にどのように関連するかを定義する関係句で使用されているフィールドです。重複しているフィールドを削除することはできません。また、分析には、フィールドごとに 1 つのバージョン、つまり、フィールドの完全度が最大のバージョンのみを必要とします。
たとえば、このモジュールで使用するデータセットの場合、Outcomes テーブルと ChallengeBakes テーブルの両方に SeasonEpisode があります。
- Outcomes テーブルは、エピソードの終了時の各ベーカーのステータスを追跡します。シーズンの最終回は形式が異なるため、最終回のレコードは含まれていません。
- ChallengeBakes テーブルは、全シーズンの全エピソードの最終的なリストです。
[代替テキスト: [SeasonEpisode] という名前の 2 つのテーブル。一方には (ChallengeBakes.csv)、もう一方には (Outcomes.csv) が付加され、それぞれのフィールドがどのテーブルから取り込まれたものかを示しています。Outcomes テーブルから取り込んだ値のリストには Null 値があります。]
[Outcomes] テーブルの [SeasonEpisode] フィールドのバージョンをこのままにすると、最終回が失われます。そこで、[ChallengeBakes] テーブルの [SeasonEpisode] フィールドは保持し、[ChallengeBakes] テーブル以外の [SeasonEpisode] のコピーをすべて非表示にします。
ここで留意すべき重要な点は、フィールド名が同じだからといって重複しているとは限らないことです。複数のテーブルに同じ名前のフィールドがあっても、その情報がまったく異なることがあります。たとえば、データセットに司会者用のテーブルと審査員用のテーブルがあるとします。このいずれかのテーブルの [Name (名前)] フィールドを確認せずに非表示にすれば、その情報が失われてしまいます。
常にデータを把握し、決めてかかることなく確認します! 後続の単元では、上記のベストプラクティスに従って実際に操作します。
メタデータに関する新しい知識を実践する
メタデータ管理の目的で [データ (データ)] ペインでできることは他にもたくさんあります。たとえば、階層の作成、フィールドの結合や分割、計算の作成などです。ただし、ここではこのモジュールに関連することに絞って説明します。
次は、分析を成功させるためにワークスペースを周到に準備します!