データの特徴を識別する
学習の目的
この単元を完了すると、次のことができるようになります。
- 有益なデータの特徴を識別する。
- サンプルデータの有益なデータの特徴を見分ける。
はじめに
意思決定に役立てるためにデータを分析して利用することは、頻繁に行われています。分析に適したデータの見分け方を知っていますか? このモジュールでは、「良い」データを見分ける方法と、必要な場合にデータを再構築する方法を学びます。
この単元では、質の高い有用なデータの特性を見分ける方法について学習します。こういった特性を持つデータを使用すると、効率的で生産性の高い分析が可能になります。
「データリテラシーの基本」モジュールでは、著名な情報技術者の Stephen Few 氏がデータの有効活用に役立つ特徴として認めた特性について説明します。データを有効活用しているユーザーに特定の属性があるのと同じように、効果的なデータにも使い勝手を良くする一定の特性があります。また、Stephen Few 氏によると、重要なインサイトにつながるデータ分析において、質の高いデータの操作は欠かせません。
Stephen Few 氏は、データビジュアライゼーションの分野におけるリーダーとして知られており、こういった特性は同氏の著書『Now You See It: An Introduction to Visual Data Sensemaking (これでわかった: ビジュアルデータセンスメイキング入門)』から許可を得て引用したものです。
有益なデータの特性
Few 氏は、有益なデータに見られる特性のリストをまとめています。この特性について読み進めながら、ご自身の経験を思い返してみましょう。あなたは、プライベートや仕事で役に立つデータに出会ったことはありますか? そのデータはどのような特性を持っていましたか? また、役に立たなかったデータに出会ったことはありますか? そのデータにはどのような特性が不足していましたか?
質の高いデータの特性には、次のものがあります。
特性 |
説明 |
---|---|
大規模 |
関連性が高く、利用可能なデータが大量にある場合、それは知りたいことへの答えが得られるチャンスが高いことを意味しています。 メモ: 単純に多くのデータを用意する必要があるということではありません。重要なのはデータの関連性です。 |
通時的 |
過去に遡るデータを活用することで、時間の経過とともに表出したパターンによって、現在の状況が生じた経緯を知ることができます。過去 10 年間にわたる売上の傾向を見て増減を確認することなどがこれに該当します。 |
一貫性 |
物事の変化に応じてデータを調整し、一貫性を保つ必要があります。この良い例として、インフレに合わせて給与や価格のデータを調整することが挙げられます。 |
多変量 |
データには量的変数 (数値で測定可能) と質的変数 (数値で測定できない特性) の両方が含まれている必要があります。データの変数が多いほど、そこから発見できることも多くなります。 |
アトミック |
データが細かく詳細であるほど、さまざまな詳細レベルでデータを確認できます。たとえば、州内での自転車利用に関する傾向を把握したい場合、こうした傾向を市、郡、地区に影響されるものと見なすと役に立ちます。 |
クリーン |
データを有益なものにするには、そのデータが正確かつ完全であり、エラーを含まないことが求められます。 |
明確 |
データは、コードではなく、わかりやすい言葉で記述されている必要があります。たとえば、「single family (1 世帯住宅)」、「two-family conversion (2 世帯住宅)」、「end unit townhouse (エンドユニットのタウンハウス)」といった住居のタイプは、「1Fam」、「2fmCon」、「TwnhsE」よりもはるかにわかりやすい値です。 |
ディメンションによる構造化 |
データは、ディメンション (質的変数) とメジャー (量的変数) という 2 つのタイプに整理することで、構造化しやすくなります。これはデータを解釈する際に Tableau で使用されている組織的な構造です。 |
充実したセグメント |
データは分析しやすくするために、類似した特性に基づいたグループ化を、データに組み込んでおく必要があります。たとえば、映画に関するデータはジャンル (アクション、SF、ロマンス、コメディなど) ごとにグループ化することが可能です。 |
既知の系統 |
データを信頼するには、そのデータがどこから抽出され、その後どのように変更されたのか、その背景を知る必要があります。 |
データ例を検討する
「January-reactors-operating」という Excel ファイルがあるとします。このファイルは米国政府が公開しているデータにアクセスできる Web サイト、Data.gov からダウンロードしたものです。このファイルには、米国内の原子炉の所在地と発電能力に関する情報が含まれています。次の画像は、このデータにおける最初の 16 行のスナップショットです。
有益なデータの特性について考えてみましょう。このデータセットは米国政府が公開しているデータにアクセスできるウェブサイト Data.gov からダウンロードしたもので、2003 ~ 2018 年のデータを含んでいます。これまでに学習したことをテストしてみましょう。ここに表れている有益なデータとしての 2 つの特性はどれでしょうか? 以下のアクティビティで、各文の空欄を埋めてください。
これで、効果的なデータのいくつかの特性を理解できました。次の単元では、データを整理する方法や、適切に構造化されたデータと形式に問題のあるデータの違いについて学習します。
リソース
- 書籍: Few, S. (2021)。Now You See It: An Introduction to Visual Data Sensemaking (これでわかった: ビジュアルデータセンスメイキング入門) (第 2 版)。Analytics Press。
- Web サイト: Perceptual Edge, Stephen Few’s professional website (Perceptual Edge、Stephen Few 氏の専門家向け Web サイト)