Skip to main content
9 月 17 日~ 19 日に サンフランシスコで Dreamforce が開催されます。DF24TRAIL20 というコードを使って今すぐ登録すると 20% 割引になります。

データを疑う

学習の目的

この単元を完了すると、次のことができるようになります。

  • データやグラフの情報源を調査する。
  • データや分析の信頼性を評価する。
メモ

この単元で使用している画像の一部は、Alberto Cairo 氏の許可を得て同氏の著書「How Charts Lie: Getting Smarter about Visual Information」から引用しています。

情報源について知る

「情報源が明記されていない、あるいは情報源へのリンクが貼られていない記事を簡単に信用してはいけない。」– Alberto Cairo、データ視覚化の専門家で「How Charts Lie」の著者

この単元で使用している画像の一部は、Alberto Cairo 氏の許可を得て同氏の著書「How Charts Lie: Getting Smarter about Visual Information」から引用しています。

ビジネスの報告書でもソーシャルメディアの投稿でも、使用されているデータやグラフの情報源を特定して評価することが重要です。グラフが誤解を招くかどうかを判断するための最初の (そして最も重要な) ステップは、情報源を知ることです。情報源を調べる際には、次の表に示す質問によって、グラフの作成に関わった人物、グラフの基となるデータ、データに関わる場所、データに関わる時間、そしてグラフを作成した理由を突き止めましょう。

調査するトピック 目的 質問

人物

データの情報源を確認し、情報を生成あるいは特定の手段で提供することに何らか既得権益が関与していないかどうかを調べる。

  • データ、分析、そして最終的な提供の責任は誰が持っているか?
  • 誰がデータを収集して分析、あるいは作成したのか?
  • 作成者はデータの収集、分析、または提供に対価を支払ったのか? そうであれば潜在的な利益相反はあるか?
  • グラフの作成者または公開者は、そのトピックの専門家か?
  • 作業には特定の団体または複数の団体が関与したか?

データ

提供されているデータの正確さを確認できるように、収集されたデータの種類と測定方法を理解する。

  • データはどのような方法で収集されて準備されたのか?
  • 作成者はどのような種類ので絵を提供しているのか?
  • どのような種類の測定が実施されたのか、その測定はどのくらい正確なのか?
  • データのサンプルの規模はどの程度だったのか?
  • アンケートの対象とした人数はどのくらいか、調査対象の人口統計はどうなっているのか?

場所

データの収集方法を評価し、情報源の信憑性と背景をさらに評価する。

  • データは特定の地域、行政区、または国から収集されたのか?
  • データはいろいろな場所から収集されているか?
  • データは信頼できる情報源の Web サイトで閲覧できるか?

時間 

データの収集時期に基づいて、データの関連性を判断する。

  • データは最新か?
  • データは時間を遡って追跡されているか? そうであれば、どのくらいの時間を遡ったのか?
  • データの収集単位は、年、月、日、もしくは分あるいは秒か?

理由

提供されているデータの客観性に影響を与える可能性がある財政的、政治的、科学的、慈善的、またはその他の潜在的な動機を明らかにする。

  • 作成者によるデータの収集と分析の実施には、特定の動機があるか?
  • 新製品の試験において、企業が調査者に報酬を支払っていたか?
  • 地域社会が主催した政府の研究であったか?

データを調べる際には、メタデータ、つまりデータに関するデータも調べるようにしてください。データに付属している資料を読むことで、メタデータ (データが収集された時期、方法、理由など) から役に立つインサイトが得られます。

メモ

情報源の信憑性を効果的に評価するためのヒントは、ワシントン大学の Savvy Info Consumers Research Guide (賢い情報消費者になるための調査ガイド) をご覧ください。

数字を確認する

「ガベージイン、ガベージアウト (ゴミを入れればゴミが出てくる)」という格言をご存じですか? これは、あらゆる出力の品質は入力の品質で決まるという意味です。この考え方は幅広い物事に共通しており、その中にはデータ消費も含まれます。グラフなどの視覚化表現が不正確なデータに基づいていると (ガベージイン)、それを見た人が不正確な結論を導き出して、無駄なアクションを実行してしまうおそれがあります (ガベージアウト)。視覚化で使用されているデータの品質と正確さを判断するには、データの基礎となっている数字をできる限り確認します。

サマリー値の確認

多くのグラフには、基礎となるデータを要約したサマリー値が付属しています。サマリー値はサマリー統計とも呼ばれ、データの概要を伝え、検討と詳細な調査に値する有意なインサイトを解き明かすこともあります。一般的なサマリー値を下表に示します。

サマリー値 説明

合計

値の合計 

カウント

値の数

平均

データセットに含まれる数値の合計を数値のカウントで割ることで求められる平均値

中央値

データセットの値を (最小値から最大値への) 順に並べたときに中央に来る値

最頻値

最も多く出現する値

範囲

最大と最小の差

最小

最も小さい値

最大

最も大きい値

メモ

これらはよく目にするサマリー値のほんの一部であり、実際にはもっとたくさんあります。詳細は、「データの分布」「集計と粒度」のモジュールをご覧ください。

割合 (パーセンテージ) の確認

割合 (パーセンテージ) は、値と値の関係を表すものです。たとえば、ある発表会で参加者の 5 人に 3 人がニュースレターの購読に登録したとします。この場合は、参加者の 3/5 または 60% がニュースレターの購読に登録したと言います。次のセクションで説明しますが、割合 (パーセンテージ) を知っていると、より正確にデータを比較できます。 

「2139 人の DACA 対象者が有罪または起訴」という記事の見出しを考えてみましょう。背景情報がなければ、この人数はかなり多いという印象を持ちますが、割合 (パーセンテージ) を確認することでその印象は変わります。記事を読むと、DACA (若年移民に対するアメリカ国外への強制退去の延期措置) の対象者は 80 万人以上もいることがわかります。割合 (パーセンテージ) を考慮すると、2,139/800,000 = 0.003、つまりわずか 0.3% です。対象者全員に対して 0.3% は低い割合だという事実がわかりますので、具体的な数字よりも割合 (パーセンテージ) のほうが情報としては価値が高いと言えます。

不十分なデータに注意する

「現実を完全に捉えることができるグラフなど存在しない。だがグラフは、過剰な簡素化と過剰な詳細による不明瞭化とのバランスをどう取るかによって、悪くも良くもなる。」– Alberto Cairo、「How Charts Lie」の著者

グラフを読むときは、事実を有意かつ正確に伝えるのに十分なデータが含まれているかどうかを確認してください。Albert Cairo は、「How Charts Lie」の中で、不十分なデータが不正確な結論を導き出す原因となる理由を説明しています。それを証明するため、Cairo は 2017 年税制改革法 (TCJA) に関する記事を引用しています。同記事では、TCJA によって標準的な 4 人家族の世帯では年間 1182 ドルの節約になると書かれていますが、この数字が事実の全体像を表していないと指摘しているのです。事実を明らかにするため、Cairo はヒストグラムに言及しました。ヒストグラムとは、定量的なデータをいくつかの範囲に分けてグループ化し、それらの分布を示すグラフです。 

2017 年の米国内での世帯所得の分布を示したヒストグラム。

記事の数字が過剰な簡素化である理由を詳しく説明しますヒストグラムを見ると、世帯所得が非常に広い範囲に分布していることがわかります。範囲が広すぎるため、「標準的な」世帯所得を決めることは非常に困難です。米国では所得の格差が非常に大きいのです。世帯の 3% は年間所得が 5000 ドル未満ですが、9% は20 万ドルを超えています。「標準的な所得」を正確に計算することがほぼ不可能なのですから、TCJA による平均的な節約額について論じるのはほとんど意味がありません。

メモ

分布についての詳細は、「データの分布」モジュールをご覧ください。

次の単元では、軸で均等間隔の目盛りを使用することの重要性を学習します。 

リソース