Skip to main content

データの基礎を学ぶ

学習の目的

この単元を完了すると、次のことができるようになります。

  • データの概要を説明する。
  • さまざまなデータソースタイプを説明する。

はじめに

データリテラシーとはデータを考察し、理解し、データで情報を伝える能力であることはわかりました。ですが、データとは一体何でしょうか?

データとは、個々の事実、統計、または情報の項目です。データは事実の積み重ねです。さらに具体的に、定義を広げて考えてみましょう。ジョンズ・ホプキンズ大学ブルームバーグ公衆衛生大学院で教授を務める、データサイエンティストの Jeffrey Leek 氏は、Wikipedia のデータの定義から始め、それを拡張して以下のような独自の定義を形作りました。

データは一連の項目に属する質的または量的変数の [sic] 値から成立している。 

それでは、詳しく見ていき、その用語を定義しましょう。

用語
定義

一連の項目

母集団と呼ばれることもある、関心の対象となる事項の集まりです。

変数

異なっているまたは変化する可能性がある、事項の測定値、特質、特性 (π などの、変化しない定数値とは対照的なもの) です。

質的変数

質的変数は、出身国、性別、氏名、髪の色などの性質または特性を表します。

量的変数

量的変数は、高さや重さ、温度などの測定可能な特性を表します。

それでは、理解度を確かめてみましょう。下の問題でそれぞれの特性が、質的変数と量的変数のどちらなのかを選んでください。

メモ: このモジュールでは、data という単語を複数ではなく単数として扱っています。ですが、data が単数形か複数形かについては議論が続いています。たとえば Cambridge Dictionary は、data を単複同形としています。

データの収集方法

データを収集するには、さまざまなツールや手法があります。たとえば、アンケート、聞き取り調査、観察、ドキュメントの分析、Web スクレイピング、機械測定などが挙げられます。入手したデータや収集したデータは、生データと呼ばれます。生データはソースデータや一次データとも呼ばれており、どのような形でも処理されていないものを指します。これはつまり、ソフトウェアでの処理、変数の編集、データの削除、何らかの形の要約が一切行われていないということです。データの削除や要約が行われていないため、最も包括的なデータ分析を行えます。

生データの例として、次のようなものがあります。

  • 顕微鏡で見るバクテリアの標本
  • 測定機器が生成したバイナリファイル
  • 成型されていないスプレッドシートファイル
  • X API からスクレイピングされた JSON データ
  • 手動で収集して記録した数値

データソースのタイプ

データソースには、考察し、理解し、伝えるためのデータが含まれています。たとえば Tableau の場合、表示されるすべてのチャートに、データを与えるデータソースが接続されています。次の対話型フラッシュカードを使用して、一般的なデータソースを確認してください。 

各カードの用語を読み、カードをクリックすると、用語の説明が表示されます。右向き矢印をクリックすると次のカードに移動し、左向き矢印をクリックすると前のカードに戻ります。 

リソース

これで、データリテラシーの意味、質問の重要性、データを効果的な活用に役立つ特性がわかりました。また、データがどのように定義されているかや、データの収集方法と保存場所についても確認できました。

無料で学習を続けましょう!
続けるにはアカウントにサインアップしてください。
サインアップすると次のような機能が利用できるようになります。
  • 各自のキャリア目標に合わせてパーソナライズされたおすすめが表示される
  • ハンズオン Challenge やテストでスキルを練習できる
  • 進捗状況を追跡して上司と共有できる
  • メンターやキャリアチャンスと繋がることができる