データの基礎を学ぶ
学習の目的
この単元を完了すると、次のことができるようになります。
- データの概要を説明する。
- さまざまなデータソースタイプを説明する。
はじめに
データリテラシーとはデータを考察し、理解し、データで情報を伝える能力であることはわかりました。ですが、データとは一体何でしょうか?
データとは、個々の事実、統計、または情報の項目です。データは事実の積み重ねです。さらに具体的に、定義を広げて考えてみましょう。ジョンズ・ホプキンズ大学ブルームバーグ公衆衛生大学院で教授を務める、データサイエンティストの Jeffrey Leek 氏は、Wikipedia のデータの定義から始め、それを拡張して以下のような独自の定義を形作りました。
データは一連の項目に属する質的または量的変数の [sic] 値から成立している。
それでは、詳しく見ていき、その用語を定義しましょう。
用語 |
定義 |
---|---|
一連の項目 |
母集団と呼ばれることもある、関心の対象となる事項の集まりです。 |
変数 |
異なっているまたは変化する可能性がある、事項の測定値、特質、特性 (π などの、変化しない定数値とは対照的なもの) です。 |
質的変数 |
質的変数は、出身国、性別、氏名、髪の色などの性質または特性を表します。 |
量的変数 |
量的変数は、高さや重さ、温度などの測定可能な特性を表します。 |
それでは、理解度を確かめてみましょう。下の問題でそれぞれの特性が、質的変数と量的変数のどちらなのかを選んでください。
メモ: このモジュールでは、data という単語を複数ではなく単数として扱っています。ですが、data が単数形か複数形かについては議論が続いています。たとえば Cambridge Dictionary は、data を単複同形としています。
データの収集方法
データを収集するには、さまざまなツールや手法があります。たとえば、アンケート、聞き取り調査、観察、ドキュメントの分析、Web スクレイピング、機械測定などが挙げられます。入手したデータや収集したデータは、生データと呼ばれます。生データはソースデータや一次データとも呼ばれており、どのような形でも処理されていないものを指します。これはつまり、ソフトウェアでの処理、変数の編集、データの削除、何らかの形の要約が一切行われていないということです。データの削除や要約が行われていないため、最も包括的なデータ分析を行えます。
生データの例として、次のようなものがあります。
- 顕微鏡で見るバクテリアの標本
- 測定機器が生成したバイナリファイル
- 成型されていないスプレッドシートファイル
- X API からスクレイピングされた JSON データ
- 手動で収集して記録した数値
データソースのタイプ
データソースには、考察し、理解し、伝えるためのデータが含まれています。たとえば Tableau の場合、表示されるすべてのチャートに、データを与えるデータソースが接続されています。次の対話型フラッシュカードを使用して、一般的なデータソースを確認してください。
各カードの用語を読み、カードをクリックすると、用語の説明が表示されます。右向き矢印をクリックすると次のカードに移動し、左向き矢印をクリックすると前のカードに戻ります。
リソース
- Tableau ブログ: Find hidden insights in your data: Ask why and why again (データから新しいインサイトを引き出す:「なぜ」を繰り返す)
- 書籍: Few, S. (2021)。Now You See It: An Introduction to Visual Data Sensemaking (これでわかった: ビジュアルデータセンスメイキング入門) (第 2 版)。Analytics Press、29-32。
- Web サイト: Perceptual Edge, Stephen Few’s professional website (Perceptual Edge、Stephen Few 氏の専門家向け Web サイト)
- Coursera: The Data Scientist’s Toolbox (データサイエンスのツールボックス) (コース登録が必要)
- Tableau: Mission (ミッション)
これで、データリテラシーの意味、質問の重要性、データを効果的な活用に役立つ特性がわかりました。また、データがどのように定義されているかや、データの収集方法と保存場所についても確認できました。