データの整理方法を学ぶ
学習の目的
この単元を完了すると、次のことができるようになります。
- 適切に構造化されたデータがどのように整理されているかを説明する。
- 適切に構造化されたデータと形式に問題のあるデータを区別する。
はじめに
前の単元では、質の高い有益なデータのいくつかの特徴について学習しました。データ整理に特化した 2 つの特徴として、ディメンションによる構造化とアトミックが挙げられます。ディメンションで構造化されたデータは、ディメンション (定性的な値) とメジャー (定量的な値) という 2 つのタイプに整理されています。これはデータを解釈する際に Tableau で使用されている組織的な構造です。アトミックなデータは細密であり、さまざまな詳細レベルでデータを分析することができます。
データが整理されていると、さまざまな方法で調査、集約、検索、絞り込みを行うことができるため、分析が容易になります。整理されていないデータは、分析方法が限定されがちです。たとえば、すでに月別にデータがまとめられている場合、日別や週別の傾向を調べることはできません。
この単元では、適切に構造化されたデータがどのように整理されているのかについて学習します。
データの整理
データは行と列に整理されています。
- 列は縦方向で、それぞれの列は異なる変数 (フィールド) を表しています。「データリテラシーの基本」モジュールでは、変数を変動または変化する可能性のある事項の測定値、特質、特性と定義しています。Tableau プラットフォームでは、変数をフィールドと呼びます。
- 行は横方向で、それぞれの行は 1 つの分析単位を表しています。Tableau プラットフォームでは、分析単位を値と呼びます。
例を見てみましょう。家族や友人を 2 ~ 3 人思い浮かべて、名前、年齢、身長、好きな食べ物といった変数 (フィールド) を使って表を作成してみましょう。完成した表は次のようなものでしょう。
名前 | 年齢 | 身長 (インチ) | 好きな食べ物 |
---|---|---|---|
Aliya |
8 |
50 インチ |
アイスクリーム |
Miles |
12 |
63 インチ |
オリーブピザ |
Penny |
42 |
67 インチ |
軸付きトウモロコシ |
Vince |
39 |
70 インチ |
パンケーキ |
ご覧のように、変数 (フィールド) は列に整理されており、名前、年齢、身長、好きな食べ物がそれぞれこれに該当します。それぞれの行は 1 つの分析単位 (値) を表しています。この場合は、どの行にも 1 人の名前、年齢、身長、好きな食べ物が記載されています。たとえば、Aliya さんは 8 歳、身長 50 インチで、アイスクリームが好きです。
「良い」データの整理
「良い」データとは、適切に構造化されたデータであり、次のような形で整理されています。
- それぞれの変数 (フィールド) が 1 列に揃っていて、列のヘッダーがある。
- その変数の観測値 (値) はそれぞれ個別の行に含まれている。
たとえば、こちらのシンプルな表を見てみましょう。変数 (フィールド) はベンダー、都市、州です。それぞれ個別の列に含まれていて、列のヘッダーも付いています。各行には変数の観測値 (値) が並んでいます。この場合はベンダー名と場所 (都市と州) がこれに該当します。ベンダーの州を個別の列に表示することで、州ごとにベンダーの検索と絞り込みが可能になります。ベンダーの都市と州が 1 つのフィールドにまとめられていたら、この種の分析はより難しくなるでしょう。
ベンダー | 都市 | 州 |
---|---|---|
Polly’s Lollipops |
プレストン |
WA |
Lucy’s Lollies |
ランシング |
MI |
Carlo Callazo’s Candy |
ケンブリッジ |
MA |
Ming’s Minty Meringues |
マディソン |
WI |
形式に問題のあるデータ
形式に問題のあるデータとは、データが乱雑であったり、Tableauを含むソフトウェアプログラムでのデータ処理を困難にしたりするという特性があります。こうした問題には次のようなものがあります。
- 変数 (フィールド) がそれぞれ 1 列に揃っておらず、列のヘッダーも付いていない。
- 変数の観測値 (値) がそれぞれ別の行に含まれていない。
- タイトルが列のヘッダーの上にある行、または余分な行として表示されている。
- 余分な列と行がある。
- 列のヘッダーがサブタイトルとして表示されていて、1 行目に含まれていない。
たとえば、形式に問題のあるこちらの表には、カリフォルニアとニューヨークで 16,000 人が 2019 年に鑑賞した映画の本数の平均が示されています。
先に説明した、形式に問題のあるデータの特性の、どれが含まれているでしょうか?
- A. 行にあるタイトル: 1 列目には列のヘッダーだけを含めるようにします。この行とその下にあるのはタイトルであり、列のヘッダーではありません。
- B. 3 行目にある列のヘッダー: 強調表示されていますが、Tableau を含む大半のソフトウェアプログラムでは、特性とサンプルサイズのセルを列のヘッダーとして読み取ることはできません。
- C. 余分な列: こちらはレポートのタイトルですが、個別の列に表示されています。
- D. 余分な行: 州は変数 (フィールド) であり、行ではなく、別の列に列のヘッダー付きで入っている必要があります。
- E (および F). サブタイトルとしての変数 (フィールド): この列におけるサブタイトル (年齢層、2019 年の平均映画鑑賞数) は変数 (フィールド) であり、それぞれ別の列に入っている必要があります。
ここでは、データを整理する方法や、適切に構造化されたデータと形式に問題のあるデータの違いについて学びました。次の単元では、形式に問題のあるデータを再構築する方法をいくつか学びます。