グラフを確実に読み取る

学習の目的

この単元を完了すると、次のことができるようになります。

データの解釈を批判的に評価する。
チェックリストを使用してグラフの信憑性と正確さを評価する。

この単元の画像は、Alberto Cairo 氏の許可を得て同氏の著書「How Charts Lie: Getting Smarter about Visual Information」から引用しています。

慎重な解釈の重要性

正確なソースのデータを使用して適切なデザインを選んで作成したグラフであっても、誤解される可能性があります。そのため、グラフや他の視覚化で表されているデータの解釈を批判的に検討し、時間をかけて慎重に評価することが重要です。

グラフを読むときは、重要な情報が欠落していないかどうかを入念に調べます。ソースデータにアクセスできる場合は、グラフには反映されていない関連情報が見つかることもあります。グラフから意図的に省略されているのかどうかには関係なく、隠れていた (欠落していた) 情報によって、グラフで提供されているデータの捉え方が変わることもあります。

グラフでの比較を考える

「思考を補助することを目的とした視覚的な表現では、比較を示さなければならない。」– Edward Tufte 著「Beautiful Evidence」より

最初の単元で学習したように、グラフは、より適確な意志決定を行うための助けとなります。情報に基づいてデータを比較し、適切な質問に答えることで、正しい意志決定が行えるのです。グラフのデータの信憑性だけではなく、グラフのコンテキストを考慮して、グラフ内での比較の意味を理解することも重要です。仮にグラフのデータが信用できるとしても、グラフが最も大切な質問に答えているかどうかを見極めないと、間違った結論を導き出してしまうことがあります。

適切な質問をすることはデータリテラシーにとって重要です。どのような質問が適切であるかを学習し、質問のスキルを磨くには、「データリテラシーの基本」モジュールを受講してください。

全体像を考える

よくある注意すべき落とし穴として、グラフがシナリオのコンテキスト全体を示していないこともあります。

たとえば、Alberto Cairo 氏は「How Charts Lie」の中で次の棒グラフについて述べています。強調されているのは、失業率が上昇しているという点です。

7 月から 8 月にかけて失業率が上昇したことを示す棒グラフ。

ところが、これら 2 つのデータポイントを 1 年間のコンテキスト、さらには複数年に渡るコンテキストで見ると、別のパターンが浮き彫りになります。確かに 2017 年の 7 月から 8 月にかけては失業率が上昇していますが、全体的には、月ごとの変動を繰り返しながら失業率は下がり続けています。これはまったく異なるストーリーです。

複数年に渡る失業率を示すグラフで、2009 年から 2018 年にかけて失業率は全体的に下がり続けている。

誤差や不確実性の余地を検討する

完璧なものなどありません。それはデータも同じです。選挙速報の出口調査では、負けた候補のほうが得票率が高いことがあります。

上のグラフの出口調査では共和党の候補が 3 ポイントリードしているが、下のグラフの開票結果では民主党の候補が 0.2 ポイント差で勝利している

出口調査のデータを解釈するときには「信頼区間」と呼ばれる統計上の許容誤差を考慮します。そして、この例の許容誤差は ±3 ポイントだったということです。これはどういう意味でしょうか?

許容誤差とは調査における「ミス」ではなく、推定にどの程度の不確実性が含まれているかを示すものです。通常、推定ではある範囲の中間ポイントを求めます。たとえば、楽しくて激しく動き回っているプードルの体長を測るとします。正しく測れなくても、何度も繰り返し測ることで、実際の長さが推定できるようになります。最終的に確信を持って言えるのは、このプードルの体長は 69 cm から 71 cm の間だということだけです。

上の出口調査の例では、「データの収集と測定の方法に基づき、95% の信頼水準で、Rick Saccone の推定値は 42 ポイントから 48 ポイントの間、つまり 45 ±3 ポイント、Conor Lamb の値は 39 から 45 の間、つまり 42 ±3 ポイントになる」と言えます。

許容誤差を示した出口調査の結果。

統計学者が許容誤差について述べるときには「信頼度」または「不確実性レベル」という言葉を使います。統計学では、同じ方法で何度も繰り返し調査を行うことによって、95 ％の確率で推定値が誤差の範囲内に収まると確信できます。この例では、ポイント推定値の ±3 ポイントの信頼区間を表すグラデーション部分が重なっているため、この結果から、どちらの候補者も当選するとは結論付けることができません。さらに、13% の浮動票を考慮すると、どちらの候補者が勝っても不思議ではありません。

許容誤差を考慮して出口調査の結果を見れば、最終結果が許容誤差の範囲内であったことがわかります。許容誤差とは、データセットに含まれる可能性のある不確実性の程度です。

たとえば、ある調査で、回答者の 60％がブランド B よりもブランド A を好むと回答したとします。許容誤差が 2％であれば、ブランド A を好む回答者の割合は 58 ～ 62％の範囲内にあることになります。

多くの情報源では、データセットについて計算した許容誤差を明記しています。許容誤差が明記されていない場合は、ある程度の不確実性がデータに含まれていることを常に意識してください。

許容誤差と不確実性の詳細は、「データ比較のためのばらつき」モジュールをご覧ください。

相関性と因果性は無関係

相関性は、変数どうしがどれほど強く関連しているかを示すだけです。それらがどのように関連しているか、あるいはなぜ関連しているのかを示すものではありません。

たとえば、アイスクリームの売り上げとサングラスの販売個数の間には相関性が見られます。では、人々がアイスクリームやサングラスを買った理由は、その前にサングラスやアイスクリームを買ったからなのでしょうか? いいえ。アイスクリームとサングラスのどちらも、購入動機が別にあることは明らかです。この場合の購入動機はおそらく「真夏の陽気」でしょう。

アイスクリームの売り上げとサングラスの販売個数との間に正の相関性があることを示す散布図。

相関性のみに基づいた思い込みによって間違った結論を導き出してしまわないように注意することが重要です。グラフに示されているデータに影響する別の変数が隠れていないかを常に考慮しましょう。

使われている言葉に注意する

グラフの説明や注釈に使われている言葉にも注意しましょう。次のような点に注目してください。

タイトルやサブタイトルはグラフを適切に表しているか?
グラフのラベルは適切か?
データの捉え方に影響するような感情的な表現が使われていないか?

常に質問をする

グラフや他者によるデータの解釈または視覚的表現を読み取るときには、常に質問をするように心がけてください。何らかの矛盾点を見つけたら、その理由を尋ね、データを詳しく調べましょう。常に好奇心を持ち続け、スマートな質問をすることは、驚くほど大きな学びに繋がり、周囲の人にも非常に有益です。

SCAM チェックリストを使用する

グラフの確認と慎重な分析を助けてくれる便利な SCAM チェックリストを活用してください。SCAM はSources (ソース)、Charts (グラフ)、Axes (軸)、Messages (メッセージ) の頭字語です。

SCAM チェックリスト

グラフを確認するときには、チェックリストに基づいて次の質問をします。

SCAM チェックリスト
ソース	データはどこから収集されたのか? データはどのように収集されたのか? グラフは誰が作成したのか? データはどのように集計されているのか?
グラフ	データを正しく解釈することを妨げる可能性がある、誤解を招くデザインプラクティスがグラフで使用されていないか?
グラフの軸	複数の軸が使用されているか? 軸のベースラインは 0 か? 目盛りと目盛りの間隔はどうなっているか? 誤解を招く可能性がある方法で軸が使用されていないか?
メッセージ (解釈)	視覚化が伝えているメッセージ (解釈) は何か? 解釈はグラフに示されているデータ分析に対して適切か? 解釈ではどのような種類の比較が行われているか? 比較は適切で公正か?

データについて話し合う

グラフを読むことは、思っていたよりもシンプルで簡単ではないことがわかりました。データを批判的に検討してスマートな質問を自問することは重要ですが、他者と共同でデータを分析することも非常に有益です。グラフに関する自分の解釈と批評を同僚や友人と話し合いましょう。そうすることで、グラフやデータの読み取りスキルを相互に高め合うことができます。

まとめ

グラフを正確に読み取り、誤解を招くグラフの落とし穴に気が付くことで、より適確な意志決定が行えるようになります。批判的に検討する姿勢を忘れず、このモジュールで学んだ知識やツールを活用することで、グラフをより正確に分析して解釈し、データと情報をより深く理解できるようになるでしょう。では、頑張ってグラフの秘密を読み解いてください。

予想時間

トピック

ヘルプをお探しですか?

CRM Analytics のリソース

Data Cloud のリソース

Tableau のリソース

グラフを確実に読み取る

学習の目的

慎重な解釈の重要性

SCAM チェックリストを使用する

データについて話し合う

まとめ

リソース