軸を確認する
学習の目的
この単元を完了すると、次のことができるようになります。
- グラフでの軸、目盛り、間隔の使い方を説明する。
- グラフの種類ごとに適切な軸を見極める。
- よくある軸の間違った使い方を認識する。
軸とは何か?
軸は、グラフでデータを表示するための構造を定義します。軸にはデータポイントの値の目盛りとラベルが付けられます。
多くのグラフには軸が 2 本あります。
- 水平軸は、一般に X 軸と呼ばれます。
- 垂直軸は、一般に Y 軸と呼ばれます。
定性的な目盛りと定量的な目盛りを理解する
グラフの軸に付けられる目盛りには 2 つの種類があります。
- 定性的な目盛りは、食品、住宅、衣類といったカテゴリにラベルを割り当てます。
- 定量的な目盛りは、0、5、10 といった数値を割り当てます。
変数と目盛りの詳細については、「変数とフィールドタイプ」モジュールを受講してください。
軸が何であるかがわかったところで、データを視覚的に伝達するためのいろいろな種類のグラフを見てみましょう。
定量的な変数を伝達するためのグラフ | |
---|---|
散布図は、2 つの定量的な変数の関係を示します。データはデカルト座標としてプロットされ、データポイントごとに水平方向と垂直方向の位置がマークされます。 |
|
折れ線グラフは、一連の定量的な値を繋いで、多くの場合は (X 軸を時間として) 時系列を示すのに使用されます。ラインプロットとも呼ばれます。 |
|
ヒストグラムは、データセットのデータの分布と値の出現頻度を、隣り合わせに並んだ棒で表します。棒の幅は、X 軸の値に対応しています。統計、化学、分析の分野では、各棒の幅をビンと呼びます。 |
|
箱ヒゲ図は、パーセンタイルを使用してデータの分布を示します。ボックスプロットとも呼ばれます。 |
目盛りの間隔について知る
目盛りの間隔とは、定量的な軸に付けられた目盛りと目盛りの間の距離です。定量的な軸では、目盛りの間隔が一定でなければなりません。たとえば、従業員の通勤時間を示すグラフであれば、目盛りの間隔としては 10 分が妥当でしょう。途中で目盛りの間隔が (15 分、40 分、60 分などに) 変わると、グラフのデータが誤解され、間違った結論が導き出されてしまう原因になります。
次のグラフは、Sue のトマト農園の収穫量が途中で急激に伸びていることを示しています。
Sue が 2010 年に農園を始めたとき比べて 2022 年のトマトの収穫量はかなり増えています。ですが、X 軸をよく見ると 2016 年から 2018 年の目盛りがありません。では、X 軸にこれらの年を加えたグラフを見てみましょう。
X 軸の目盛りの間隔を均等にすることで、Sue のトマト農園の収穫量が、毎年安定して増えていることがわかります。
目盛りの間隔が一定であることを確認することに加えて、欠けているデータポイント、つまり null にも注目すること重要です。2016 年から 2018 年の間には何が起きたのでしょうか? 可能性としては、この期間中に Sue のトマト栽培で問題が発生していたことも考えられます。
定量的なデータのグラフで定性的な軸が使用されているケースに注意する
散布図、折れ線グラフ、ヒストグラムで定性的な軸が使用されているケースに注意してください。たとえば、次のグラフは特定のセクターの借主の人数を示しています。
このデータなら棒グラフを使いましょう。折れ線グラフは、日付や時間などに沿った連続した値を示すのに使用します。また、折れ線グラフの X 軸は定量的な変数を示し、目盛りの間隔が均等である必要があります。上の例では、業種のカテゴリを順番に並べる意味はありません。この場合は、棒グラフのほうがはるかに賢い選択肢ですが、次に述べるベースラインの重要なベストプラクティスに準拠することが前提となります。
棒グラフのベースラインは 0 にすること
すべての棒グラフのベースラインは 0 にする、つまり棒の一番下の値が 0 であることが重要です。この重要性をわかりやすく示します。地域別の売上を示した次のグラフを見てください。
右側のグラフでは、X 軸に示されている 2 つの地域の売上が数倍も異なるように勘違いしてしまう可能性があります。右側のグラフが誤解を招くのは、Y 軸のベースラインが 0 ではなく 38 万ドルになっているからです。棒グラフを解釈するときは、棒の長さを比較します。縦軸のベースラインが 38 万ドルだと、実際の売上の差が数倍に感じてしまうのです。左側のグラフが右側と異なるのは、Y 軸のベースラインが 0 であるという点だけです。
右側のグラフでは、売上の差が実際にはそれほど大きくないのに、かなり誇張されてしまうことがわかります。そのため、棒グラフを見るときは、必ずベースラインが 0 であることを確認することが重要なのです。
折れ線グラフのベースラインは 0 でなくてもかまわない
一方、折れ線グラフには「ベースラインは 0 にすること」というルールは適用されません。むしろ、折れ線グラフの Y 軸のベースラインが 0 ではないほうが都合が良いことさえあります。世界の平均気温の移り変わりを示した次の 2 つの折れ線グラフを見てください (データソース: Graphing Global Temperature Trends)。
2 番目のグラフのほうがパターンがはっきりとわかり、世界の気温に何が起きているのかというインサイトを得やすいと言えます。これは、2 番目のグラフのベースラインが 0 ではないためです。2 番目のグラフでは、年ごとの気温の変化など、最初のグラフではぼやけていた詳細がよく見えます。
複数の軸に関する大論争
データの視覚化の世界では、1 つのグラフで二重の軸を使用することの有用性について大論争が起きています。二重の軸は適切に活用すれば便利ですが、使い方を間違って誤解を招くグラフになってしまうこともよくあります。
複数の軸が適するケース
複数の軸を使用することが適切なケースもあります。たとえば、同じデータを 2 つの異なる測定単位 (インチとセンチメートルやキログラムとポンドなど) で示したい場合には、2 本の Y 軸を使用して 2 つの異なる目盛りで同じデータポイントセットを示します。次のグラフでは、片方の Y 軸では華氏、他方では摂氏で温度が示されています。
複数の軸が適さないケース
一方、複数の軸を使用すると誤解を招くケースもあります。このようなグラフは、意図的な場合もありますが、無意識にそうなってしまう場合もあります。データの視覚化の分野で評価の高いライターであり教育者でもある Lisa Charlotte Muth は、彼女のブログ Datawrapper で、このような誤解を招くグラフの実例として、2 本の Y 軸で 2 つの異なるデータポイントシリーズを示すグラフを紹介しています。
このグラフの目盛りをよく見てください。2本の Y 軸の目盛りは異なるため、2011 年には、まるでドイツの GDP が全世界の GDP と同じであるかのように勘違いしてしまいます。実際には、ドイツの GDP と全世界の GDP の間には 66 兆ドル以上もの差があります。
グラフを見るときには、データが有意な方法で提供されていることを保証するため、常にグラフの軸を確認することを忘れないでください。
リソース
- Trailhead: 変数とフィールドタイプ
- Tableau サイト: Truncating the Y-Axis: Threat or Menace? (Y 軸を切り詰める: 脅迫か脅威か?)
- 書籍: Steve Wexler (2021): The Big Picture: How to Use Data Visualization to Make Better Decisions–Faster,.McGraw-Hill Companies
- 書籍: Alberto Cairo (2020): How Charts Lie: Getting Smarter about Visual Information, W.W.Norton & Company
- ブログ投稿: Why Not to Use Two Axes, and What to Use Instead (2 本の軸を使わないのなら、代わりに何を使えば良いのか)