データを疑う
学習の目的
この単元を完了すると、次のことができるようになります。
- データやグラフの情報源を調査する。
- データや分析の信頼性を評価する。
情報源について知る
「情報源が明記されていない、あるいは情報源へのリンクが貼られていない記事を簡単に信用してはいけない。」– Alberto Cairo、データ視覚化の専門家で「How Charts Lie」の著者
この単元で使用している画像の一部は、Alberto Cairo 氏の許可を得て同氏の著書「How Charts Lie: Getting Smarter about Visual Information」から引用しています。
ビジネスの報告書でもソーシャルメディアの投稿でも、使用されているデータやグラフの情報源を特定して評価することが重要です。グラフが誤解を招くかどうかを判断するための最初の (そして最も重要な) ステップは、情報源を知ることです。情報源を調べる際には、次の表に示す質問によって、グラフの作成に関わった人物、グラフの基となるデータ、データに関わる場所、データに関わる時間、そしてグラフを作成した理由を突き止めましょう。
調査するトピック |
目的 |
質問 |
---|---|---|
人物 |
データの情報源を確認し、情報を生成あるいは特定の手段で提供することに何らか既得権益が関与していないかどうかを調べる。 |
|
データ |
提供されているデータの正確さを確認できるように、収集されたデータの種類と測定方法を理解する。 |
|
場所 |
データの収集方法を評価し、情報源の信憑性と背景をさらに評価する。 |
|
時間 |
データの収集時期に基づいて、データの関連性を判断する。 |
|
理由 |
提供されているデータの客観性に影響を与える可能性がある財政的、政治的、科学的、慈善的、またはその他の潜在的な動機を明らかにする。 |
|
データを調べる際には、メタデータ、つまりデータに関するデータも調べるようにしてください。データに付属している資料を読むことで、メタデータ (データが収集された時期、方法、理由など) から役に立つインサイトが得られます。
数字を確認する
「ガベージイン、ガベージアウト (ゴミを入れればゴミが出てくる)」という格言をご存じですか? これは、あらゆる出力の品質は入力の品質で決まるという意味です。この考え方は幅広い物事に共通しており、その中にはデータ消費も含まれます。グラフなどの視覚化表現が不正確なデータに基づいていると (ガベージイン)、それを見た人が不正確な結論を導き出して、無駄なアクションを実行してしまうおそれがあります (ガベージアウト)。視覚化で使用されているデータの品質と正確さを判断するには、データの基礎となっている数字をできる限り確認します。
サマリー値の確認
多くのグラフには、基礎となるデータを要約したサマリー値が付属しています。サマリー値はサマリー統計とも呼ばれ、データの概要を伝え、検討と詳細な調査に値する有意なインサイトを解き明かすこともあります。一般的なサマリー値を下表に示します。
サマリー値 |
説明 |
---|---|
合計 |
値の合計 |
カウント |
値の数 |
平均 |
データセットに含まれる数値の合計を数値のカウントで割ることで求められる平均値 |
中央値 |
データセットの値を (最小値から最大値への) 順に並べたときに中央に来る値 |
最頻値 |
最も多く出現する値 |
範囲 |
最大と最小の差 |
最小 |
最も小さい値 |
最大 |
最も大きい値 |
割合 (パーセンテージ) の確認
割合 (パーセンテージ) は、値と値の関係を表すものです。たとえば、ある発表会で参加者の 5 人に 3 人がニュースレターの購読に登録したとします。この場合は、参加者の 3/5 または 60% がニュースレターの購読に登録したと言います。次のセクションで説明しますが、割合 (パーセンテージ) を知っていると、より正確にデータを比較できます。
「2139 人の DACA 対象者が有罪または起訴」という記事の見出しを考えてみましょう。背景情報がなければ、この人数はかなり多いという印象を持ちますが、割合 (パーセンテージ) を確認することでその印象は変わります。記事を読むと、DACA (若年移民に対するアメリカ国外への強制退去の延期措置) の対象者は 80 万人以上もいることがわかります。割合 (パーセンテージ) を考慮すると、2,139/800,000 = 0.003、つまりわずか 0.3% です。対象者全員に対して 0.3% は低い割合だという事実がわかりますので、具体的な数字よりも割合 (パーセンテージ) のほうが情報としては価値が高いと言えます。
不十分なデータに注意する
「現実を完全に捉えることができるグラフなど存在しない。だがグラフは、過剰な簡素化と過剰な詳細による不明瞭化とのバランスをどう取るかによって、悪くも良くもなる。」– Alberto Cairo、「How Charts Lie」の著者
グラフを読むときは、事実を有意かつ正確に伝えるのに十分なデータが含まれているかどうかを確認してください。Albert Cairo は、「How Charts Lie」の中で、不十分なデータが不正確な結論を導き出す原因となる理由を説明しています。それを証明するため、Cairo は 2017 年税制改革法 (TCJA) に関する記事を引用しています。同記事では、TCJA によって標準的な 4 人家族の世帯では年間 1182 ドルの節約になると書かれていますが、この数字が事実の全体像を表していないと指摘しているのです。事実を明らかにするため、Cairo はヒストグラムに言及しました。ヒストグラムとは、定量的なデータをいくつかの範囲に分けてグループ化し、それらの分布を示すグラフです。
記事の数字が過剰な簡素化である理由を詳しく説明します。ヒストグラムを見ると、世帯所得が非常に広い範囲に分布していることがわかります。範囲が広すぎるため、「標準的な」世帯所得を決めることは非常に困難です。米国では所得の格差が非常に大きいのです。世帯の 3% は年間所得が 5000 ドル未満ですが、9% は20 万ドルを超えています。「標準的な所得」を正確に計算することがほぼ不可能なのですから、TCJA による平均的な節約額について論じるのはほとんど意味がありません。
次の単元では、軸で均等間隔の目盛りを使用することの重要性を学習します。
リソース
- Trailhead: データリテラシーの基本
- Trailhead: 集計と粒度
- Trailhead: データの分布
- 書籍: Alberto Cairo (2020): How Charts Lie: Getting Smarter About Visual Information, W.W.Norton & Company
- 書籍: Edward Tufte (2006): Beautiful Evidence.Graphics Press
- Tableau サイト: Understanding and Using Histograms (ヒストグラムの理解と使用)
- 書籍: Steve Few (2012) Show Me the Numbers, Analytics Press