離散変数の分布を表示する方法を学習します。
学習の目的
この単元を完了すると、次のことができるようになります。
- データの分布を定義する。
- 離散変数の度数分布と比例分布を区別する。
はじめに
「データリテラシーを習得する」トレイルの「適切に構造化されたデータ」モジュールを修了している方は、データが列 (フィールド) と行にどのように整理されているかを学習しました。適切に構造化されたデータでは、各変数 (フィールド) は固有の列にあり、その変数の異なる観測値 (値) はそれぞれ異なる行にあります。
また、変数には離散変数と連続変数があります。離散変数は値がそれぞれ分離しているのに対して、連続変数は値が切れ目なく全体を形成しています。変数の詳細については、「変数とフィールドタイプ」モジュールを参照してください。
データを扱うときには、データセットの分布を見たい場合があります。分布は、可能性のあるすべてのデータ値と、その出現頻度 (カウント) を示します。言い換えると、分布は各データ値が何回発生するかを表しています。また分布の編成は、変数が離散的であるか連続的であるかによって異なります。まずは、離散変数から詳しく見ていきましょう。
離散変数の分布
離散変数の分布を見ると、頻度 (総数) や比率 (パーセンテージ) がわかります。ここでは、『Online Statistics Education: An Interactive Multimedia Course of Study (オンライン統計学教育: インタラクティブマルチメディア学習指導要領)』(プロジェクトリーダー: David M. Lane 氏 (ライス大学)) から引用した例を紹介します。
キャンディの色の度数分布
6 種類の色をしたキャンディの袋があるとします。色という変数について考えてみましょう。これは名義尺度の質的変数であるため、離散変数であることがわかります。
離散変数は個別に数えることができます。キャンディを袋から出して、すばやく数えてみましょう。キャンディは合計 55 個で、茶色が 17 個、赤が 18 個、黄色が 7 個、緑が 7 個、青が 2 個、オレンジが 4 個あります。
これで、袋に入っていたキャンディの色の頻度の度数分布、つまり、何色のキャンディが袋の中に何個入っていたかを示すことができます。
次のような度数分布表を作成して、度数分布を表すことが可能です。
色 |
頻度 |
---|---|
茶 |
17 |
赤 |
18 |
黄 |
7 |
緑 |
7 |
青 |
2 |
オレンジ |
4 |
また、この度数分布はグラフで表すこともできます。次のグラフは、ビジュアル分析プラットフォームである Tableau を使用して作成したものです。
キャンディの色の比例分布
度数分布の例では、手元にあるキャンディの袋だけを対象にしていました。では、このキャンディのすべての袋について色の分布が知りたい場合はどうでしょうか。
キャンディの製造業者はいくつかの情報を提供していますが、これまでに何色のキャンディを何個製造したかの正確な情報は含まれていません。提供されている情報は、頻度 (これまでに製造したそれぞれの色の総数) ではなく、それぞれの色の比率です。比率とは、製造された各色の割合を小数で表したもののことです。たとえば、赤いキャンディの比率が 0.20 だとすると、製造されたキャンディの 20% が赤ということになります。
どのキャンディも 6 色のうちのいずれかであるため、すべての比率の合計は 1 (つまり 100%) になります。
こうした比率を示すグラフは比例分布と呼ばれます。次の棒グラフは、キャンディの色の比例分布、つまり、製造されたキャンディ全体の中で、それぞれの色が何パーセントを占めているかを示しています。
フラッシュカードで知識をテストする
それでは、度数分布と比例分布について学んだ知識をテストしてみましょう。 ある会社に関する 2 つの分布グラフを見てみましょう。この会社は、家具、事務用品、家電という 3 種類の商品を販売しています。最初のカードは、商品カテゴリのそれぞれが注文の合計数に占める割合を示しています。2 番目のカードは、カテゴリごとの注文の合計数を示しています。
グラフをよく見てください。どちらが度数分布で、どちらが比例分布でしょうか? 右向き矢印をクリックすると次のカードに移動し、左向き矢印をクリックすると前のカードに戻ります。カードをクリックすると正解が表示されます。
これで、離散変数の分布には:度数分布と比例分布の 2 種類があることを学習できました。次の単元では、連続値の分布を示す方法について学習します。