箱ヒゲ図を使用して連続変数の分布を表示する
学習の目的
この単元を完了すると、次のことができるようになります。
- 箱ヒゲ図を使用してデータの分布を表す方法を説明する。
- 箱ヒゲ図を作成する
これまで、変数の分布を調べるためのいくつかの方法を見てきました。この単元では、箱ヒゲ図と呼ばれるもう 1 つの重要なグラフについて学習します。1970 年代に、米国の数学者である John Tukey 氏によって提唱された箱ヒゲ図では、データの分布の確認と対比を、視覚的に簡潔に行えます。
箱ヒゲ図の箱は、データの中央 50% を示しています。自分にとってより意味のある情報を得るには、自分よりも低い内向性スコアの人たちの割合を知ることです。
パーセンタイル (百分位) は、あるスコアを同じデータセット内の他のスコアと比較してどのようになっているかを表します。たとえば、内向性のレベルを測定する心理テストを受けたとします。内向性スコアは、それ自体で解釈することは困難です。自分のスコアが他の人と比べてどうなのかや、自分よりも低い内向性スコアの人々の割合を知りたい場合があります。この割合がパーセンタイルです。他の被験者の 65% が自分よりも低いスコアであった場合、自分のスコアは 65 パーセンタイルになります。
まとめると、箱ヒゲ図における箱はデータの中央 50%、つまり 25 ~ 75 パーセンタイルを示しています。ただし、そこから外れたデータについてはどうでしょうか? ここで役に立つのが「ヒゲ」です。箱の外側にプロットされたヒゲは、横線が両端についている垂直の線です。ヒゲは、データの中央 50% (箱) に含まれない値について、外れ値などのインサイトを提供します。外れ値は、典型的ではない頻度の低い観測値、あるいは分布の中心から極端に外れた値として理解することができます。
このようなすべての概念については、この単元の後半で詳しく説明します。
箱ヒゲ図作成する
次の箱ヒゲ図の例は、David M. Lane 氏の『Online Statistics Education: An Interactive Multimedia Course of Study (オンライン統計学教育: インタラクティブマルチメディア学習指導要領)』(プロジェクトリーダー: David M. Lane 氏 (ライス大学)) の箱ヒゲ図に関する章から引用したものです。
著者は 31 人の生徒を対象としたクラス内実験を行いました。生徒たちにはそれぞれ、30 色の長方形のページが渡され、できるだけ早く色の名前を挙げるという課題が与えられました。
その所要時間は秒単位で記録され、次の表のようになりました。
14 |
17 |
18 |
19 |
20 |
21 |
15 |
17 |
18 |
19 |
20 |
22 |
16 |
17 |
18 |
19 |
20 |
23 |
16 |
17 |
18 |
20 |
20 |
24 |
17 |
18 |
18 |
20 |
21 |
24 |
29 |
このデータセットを使って、箱ヒゲ図を作成しましょう。箱ヒゲ図を作成する際に必要な手順の概要を次に示します。
- パーセンタイルを計算する。
- パーセンタイルに従って箱をプロットする。
- ステップサイズを決定する。
- ヒゲを追加する。
- 外側値を追加する。
パーセンタイルを計算する
箱ヒゲ図の中の箱は、データの 25 パーセンタイルから 75 パーセンタイルまであることを思い出してください。50 パーセンタイルは、箱の中に描きます。箱の下辺 (下側ヒンジと呼ばれる) は 25 パーセンタイルで、箱の上辺 (上側ヒンジと呼ばれる) は 75 パーセンタイルです。
次の手順で、数直線を使ってパーセンタイルを見てみましょう。
- スコアを小から大の順に並べます。
- 中央値を決定します。中央値は、数字の列の先頭と末尾のちょうど中間にあります。31 個の値の列の場合、ちょうど中間とは、中央値の前に 15 の値があり、その後ろにも 15 の値があるという意味になります。したがって、中央値は 19 です。
- 25 パーセンタイルを決定します。25 パーセンタイルの値は、数字の列の先頭と中央値のちょうど中間にあります。31 個の値の例では、このちょうど中間の位置は、その前に 7 個の値があり、中央値との間にも 7 個の値がある位置です。したがって、25 パーセンタイルの値は 17 です。
- 75 パーセンタイルを決定します。75 パーセンタイルの値は、中央値と数字の列の末尾のちょうど中間にあります。31 個の値のリストでは、このちょうど中間の位置は、中央値との間に 7 個の値があり、列の末尾との間にも 7 個の値がある位置です。したがって、75 パーセンタイルの値は 20 です。
パーセンタイルに従って箱をプロットする
上記の値を代入して、箱をプロットしましょう。
31 個のスコアのセットについて、以下のように決定しました。
- 25 パーセンタイルは 17。
- 50 パーセンタイル (中央値) は 19。
- 75 パーセンタイルは 20。
そこで、次のように箱を描きます。
- 25 パーセンタイル (下側ヒンジ) は Y 軸の 17 に合わせます。
- 50 パーセンタイル (中央値) は Y 軸の 19 に合わせます。
- 75 パーセンタイル (上側ヒンジ) は Y 軸の 20 に合わせます。
データ値の中央 50% が箱内に収まります。
ステップサイズを決定する
これから、データの広がりに関する追加情報を与えるために、箱の上下にヒゲをプロットする準備をします。ヒゲの配置は、ステップによって決まります。1 つのステップは、1.5 x IQR と定義されています。IQR は四分位範囲です。
これは複雑に思われますが、IQR とは単に、上側ヒンジの値 (75 パーセンタイル) と下側ヒンジの値 (25 パーセンタイル) の差のことです。データ値の中央 50% は、この 2 つの値を境界とする箱の中に収まることを思い出してください。
この例のスコアのセットでは、上側ヒンジの値は 20、下側ヒンジの値は 17 です。したがって、IQR は 20 - 17、つまり 3 となります。
ステップサイズを決定するために、3 (IQR) を 1.5 倍することで、4.5 が得られます。
ヒゲを追加する
ヒゲがどのようにプロットされるかを理解するために、まずいくつかの用語に着目し、この例のスコアにどのように当てはまるかを確認しましょう。
ヒゲはどこまで延ばすのか?
ヒゲは、上側ヒンジから上側隣接値までと、下側ヒンジから下側隣接値まで描くことができます。
外側値までヒゲを描くことはしません。代わりに、外側値は小さな o で表し、極外値はアスタリスク (*) で表します。
この例のスコアデータでは、ヒゲは上側ヒンジ値 (20) から上側隣接値 (24) までと、下側ヒンジ値 (17) から下側隣接値 (14) まで延びます。
外側値を追加する
内側フェンスを越えているが、外側フェンスは越えていない値が外側値です。この例のスコアセットには、このような値として 29 があります。外側フェンスの値と一致しますが、外側フェンスを越えてはいません。この値を描くために、小さな o を使用します。
これで箱ヒゲ図が完了しました。
箱ヒゲ図とヒストグラム
分布を示す上で、箱ヒゲ図とヒストグラムはどう違うのか、疑問に思われるかもしれません。
- ヒストグラムでは、ビンを使用して値の頻度をプロットします。
- 箱ヒゲ図では、データの中央 50% が箱に入り、外れ値がある場合にはヒゲの外側にプロットされます。
そのイメージをつかむために、身長の分布の形状を示したデータに戻って、データがヒストグラムと箱ヒゲ図でどのように表示されるかを比較しましょう。
箱ヒゲ図の方がずっと少ないスペースで済むため、より簡単に分布を比較できるようになっています。横に並んだ 3 つの分布を比較するには、ヒストグラムよりも箱ヒゲ図の方が簡単です。他の例も見てみましょう。
ここでは、分布がデータの考察、理解、伝達にどのように役立つかについて学習しました。