線形回帰を使用して関係性を明らかにする

学習の目的

この単元を完了すると、次のことができるようになります。

線形回帰を定義する。
相関と線形回帰の特徴を区別する。

線形回帰とは?

前の単元で学習したとおり、相関は 2 つの量的変数間の関係の方向 (正または負) と強さ (非常に強い～非常に弱い) を表します。

相関と同様に、線形回帰も 2 つの数値変数の関係の方向と強さを表しますが、回帰の場合は、相関とは異なり、散布図上の点を通る最適な直線も使用して、X 値から Y 値を予測します。相関の場合、X と Y の値を置き換えることができます。回帰の場合、X と Y を置き換えると分析結果が変わります。

この単元の概念は、『Introduction to Statistics (統計学入門)』から引用したものです。

線形回帰直線

相関の場合と同じく、意味のある回帰には次の必要条件があります。

量的変数を使用する
線形関係を確認する
外れ値に注意する

相関と同様に、線形回帰も散布図で視覚的に表されます。

散布図上の回帰線は、散布図の点に対して最もフィットする直線です。言い換えると、それぞれの点との最短距離を保ちながら点の間を通る直線です。

ではなぜ、この線は役に立つのでしょうか? これは、線形回帰計算を使用すると、X の値がわかっている場合に Y の値を計算つまり予測できるからです。

例を使ってわかりやすく説明しましょう。

回帰の例

たとえば、床面積が 1,500 平方フィートの住宅を購入するにはどのくらいの費用がかかるかを予測する必要があるとします。線形回帰を使用して予測してみましょう。

予測したい変数、つまり住宅価格を Y 軸に置きます (これは従属変数ともいいます)。
予測のベースとなる変数、つまり床面積を X 軸に置きます (これは独立変数ともいいます)。

これは、住宅価格 (Y 軸) と床面積 (X 軸) の散布図です。

住宅価格 (Y 軸) と床面積 (X 軸) を示す青色の点を含む散布図。

散布図を見ると、床面積が広い家ほど価格が高くなる傾向がありますが、床面積が 1,500 平方フィートの住宅を取得するには費用がいくらかかるでしょうか?

その質問の答えを出すには、点の間に 1 本の線を引きます。これが線形回帰です。回帰直線に基づき、特定の床面積の標準的な住宅の価格がいくらになるかを予測できます。この例には、回帰直線の方程式が示されています。

強調表示されている回帰線の方程式。

この線の方程式は、Y = 113X + 98,653 (四捨五入) です。

この直線の方程式に使われている具体的な数値は、どのように求めたのでしょうか。傾きと切片は手作業で計算することもできますが、Tableau のような最新のツールを使えば自動的に計算できます。Tableau は、最小二乗法と呼ばれる手法を使用してデータポイントを分析し、「最適な回帰直線」を即座に算出します。傾向線をチャートにドラッグするだけで、ソフトウェアが複雑な計算を処理し、数秒で正確な方程式が表示されます。

この方程式は何を意味しているでしょうか? もし床面積ゼロの物件 (たとえば空き地) を購入した場合、価格は 98,653 ドルになります。方程式を解く手順は次のとおりです。

Y を求めるには、X の値に 113 を掛けて、それに 98,653 を足します。この場合、床面積はゼロであるため、X の値は 0 です

Y = (113 * 0) + 98,653
Y = 0 + 98,653
Y = 98,653

この 98,653 という値を Y 切片といいます。この位置で線が Y 軸を交差しているからです。これは X = 0 のときの Y の値です。

この 113 という数字は、線の傾きです。傾きとは、線の方向と傾斜の大きさの両方を表す数値です。この場合、傾斜では 1 平方フィートごとに住宅価格が 113 ドルずつ増加することが予測されています。

では、1,500 平方フィートの住宅にはいくら費用がかかりますか?

Y = (113 * 1500) + 98,653 = 268,153 ドル

この散布図をもう一度見てください。青色の点が実際のデータです。住宅のデータの範囲は 1,100 ～ 2,450 平方フィートであることがわかります。

青色の点、グレーの回帰線、回帰線上で X と Y が交わる場所を示すオレンジ色の線が描かれている散布図。

この方程式は、すべての住宅価格の予測に使用できるわけではありません。5,000 平方フィートの住宅と 10,000 平方フィートの住宅の場合では、どちらの値も実際のデータ範囲には含まれていないため、この方程式を使用したこういった値による予測には注意が必要です。

R-2 乗値

この例では、方程式のほかに R-2 乗値 (決定係数ともいう) が示されています。

回帰線の強調表示されている R-2 乗値。

この値は、データと回帰線がどれだけ近いか、つまり、このモデルが実際の観測データにどれだけ適合しているかを示す統計的な尺度です。データが完全に直線上にある場合、R-2 乗値は 1、つまり 100% です。これは、モデルが完全に適合する (すべての観測データポイントが直線上にある) ことを意味します。

今回の住宅価格データでは、R-2 乗値は 0.70、つまり 70% です。

線形回帰と相関の比較

ここで、線形回帰と相関の区別について確認しておきましょう。以下の表を参照して、それぞれの概念の要約を確認してください。

線形回帰	相関
X から Y を予測する線形モデルを示す。	2 つの値の間に線形関係があることを示す。
R-2 乗値を使用して、モデルによって説明されるばらつきの割合を計測する。	相関の強さと方向を示す尺度、r を使用する。
X と Y を置き換え可能な値として使用しない (Y は X から予測されるため)。	X と Y を置き換え可能な値として使用する。

相関と回帰という統計的概念に慣れておくと、関係性を調べることで、対象のデータを検討して理解することができます。

リソース

教材: Online Statistics Education: An Interactive Multimedia Course of Study, 2020 (オンライン統計学教育: 2020 年インタラクティブマルチメディア学習指導要領)

予想時間

トピック

ヘルプをお探しですか?

Tableau のリソース