Skip to main content

データの整理方法を学ぶ

学習の目的

この単元を完了すると、次のことができるようになります。

  • 適切に構造化されたデータがどのように整理されているかを説明する。
  • 適切に構造化されたデータと形式に問題のあるデータを区別する。

はじめに

前の単元では、質の高い有益なデータのいくつかの特徴について学習しました。データ整理に特化した 2 つの特徴として、ディメンションによる構造化とアトミックが挙げられます。ディメンションで構造化されたデータは、ディメンション (定性的な値) とメジャー (定量的な値) という 2 つのタイプに整理されています。これはデータを解釈する際に Tableau で使用されている組織的な構造です。アトミックなデータは細密であり、さまざまな詳細レベルでデータを分析することができます。

データが整理されていると、さまざまな方法で調査、集約、検索、絞り込みを行うことができるため、分析が容易になります。整理されていないデータは、分析方法が限定されがちです。たとえば、すでに月別にデータがまとめられている場合、日別や週別の傾向を調べることはできません。 

この単元では、適切に構造化されたデータがどのように整理されているのかについて学習します。 

データの整理

データは行と列に整理されています。

  • は縦方向で、それぞれの列は異なる変数 (フィールド) を表しています。「データリテラシーの基本」モジュールでは、変数を変動または変化する可能性のある事項の測定値、特質、特性と定義しています。Tableau プラットフォームでは、変数をフィールドと呼びます。
  • は横方向で、それぞれの行は 1 つの分析単位を表しています。Tableau プラットフォームでは、分析単位をと呼びます。

例を見てみましょう。家族や友人を 2 ~ 3 人思い浮かべて、名前、年齢、身長、好きな食べ物といった変数 (フィールド) を使って表を作成してみましょう。完成した表は次のようなものでしょう。

名前 年齢 身長 (インチ) 好きな食べ物

Aliya

8

50 インチ 

アイスクリーム

Miles

12

63 インチ

オリーブピザ

Penny

42

67 インチ

軸付きトウモロコシ

Vince

39

70 インチ

パンケーキ

ご覧のように、変数 (フィールド) は列に整理されており、名前年齢身長好きな食べ物がそれぞれこれに該当します。それぞれの行は 1 つの分析単位 (値) を表しています。この場合は、どの行にも 1 人の名前、年齢、身長、好きな食べ物が記載されています。たとえば、Aliya さんは 8 歳、身長 50 インチで、アイスクリームが好きです。

「良い」データの整理

「良い」データとは、適切に構造化されたデータであり、次のような形で整理されています。

  • それぞれの変数 (フィールド) が 1 列に揃っていて、列のヘッダーがある。
  • その変数の観測値 (値) はそれぞれ個別の行に含まれている。

たとえば、こちらのシンプルな表を見てみましょう。変数 (フィールド) はベンダー都市です。それぞれ個別の列に含まれていて、列のヘッダーも付いています。各行には変数の観測値 (値) が並んでいます。この場合はベンダー名と場所 (都市と州) がこれに該当します。ベンダーの州を個別の列に表示することで、州ごとにベンダーの検索と絞り込みが可能になります。ベンダーの都市と州が 1 つのフィールドにまとめられていたら、この種の分析はより難しくなるでしょう。 

ベンダー 都市

Polly’s Lollipops

プレストン

WA

Lucy’s Lollies

ランシング

MI

Carlo Callazo’s Candy

ケンブリッジ

MA

Ming’s Minty Meringues

マディソン

WI

形式に問題のあるデータ

形式に問題のあるデータとは、データが乱雑であったり、Tableauを含むソフトウェアプログラムでのデータ処理を困難にしたりするという特性があります。こうした問題には次のようなものがあります。

  • 変数 (フィールド) がそれぞれ 1 列に揃っておらず、列のヘッダーも付いていない。
  • 変数の観測値 (値) がそれぞれ別の行に含まれていない。
  • タイトルが列のヘッダーの上にある行、または余分な行として表示されている。
  • 余分な列と行がある。
  • 列のヘッダーがサブタイトルとして表示されていて、1 行目に含まれていない。

たとえば、形式に問題のあるこちらの表には、カリフォルニアとニューヨークで 16,000 人が 2019 年に鑑賞した映画の本数の平均が示されています。

16 行と 3 列で構成されており、形式に問題があることを示す矢印がある表。

先に説明した、形式に問題のあるデータの特性の、どれが含まれているでしょうか?

  • A. 行にあるタイトル: 1 列目には列のヘッダーだけを含めるようにします。この行とその下にあるのはタイトルであり、列のヘッダーではありません。
  • B. 3 行目にある列のヘッダー: 強調表示されていますが、Tableau を含む大半のソフトウェアプログラムでは、特性とサンプルサイズのセルを列のヘッダーとして読み取ることはできません。
  • C. 余分な列: こちらはレポートのタイトルですが、個別の列に表示されています。
  • D. 余分な行: 州は変数 (フィールド) であり、行ではなく、別の列に列のヘッダー付きで入っている必要があります。
  • E (および F). サブタイトルとしての変数 (フィールド): この列におけるサブタイトル (年齢層、2019 年の平均映画鑑賞数) は変数 (フィールド) であり、それぞれ別の列に入っている必要があります。
メモ

メモ: データに関する上記のような問題は、一般的に Excel などのスプレッドシートアプリケーションのファイルでよく見られますので、スプレッドシートのファイルで作業をする際には十分に注意してください。

ここでは、データを整理する方法や、適切に構造化されたデータと形式に問題のあるデータの違いについて学びました。次の単元では、形式に問題のあるデータを再構築する方法をいくつか学びます。

無料で学習を続けましょう!
続けるにはアカウントにサインアップしてください。
サインアップすると次のような機能が利用できるようになります。
  • 各自のキャリア目標に合わせてパーソナライズされたおすすめが表示される
  • ハンズオン Challenge やテストでスキルを練習できる
  • 進捗状況を追跡して上司と共有できる
  • メンターやキャリアチャンスと繋がることができる