Aritalab:Lecture/Math/LR

回帰分析

回帰分析には 1 変量の単回帰 (univariate linear regression) と多変量の重回帰 (multivariate linear regression) があります。モデルしたい変量を y (目的変量）、説明に使う変量を x 、係数を b で表します（ b₀ は定数項）。

(重)回帰モデル: y = b₀ + x₁ b₁ + x₂ b₂ + ... + x_n b_n　（つまり y を複数の変量 x₁～x_n の線形結合でモデルするやり方）

特に 1 変数の場合を単回帰モデルといいます。

最小二乗法

ここでは最適パラメータを求める最小二乗法を単回帰を使って説明します。

y₁ = b₀ + x₁ b₁ + r₁

y₂ = b₀ + x₂ b₁ + r₂

: :

y_n = b₀ + x_n b₁ + r_n

y ... 目的となる変数（説明される側なので従属変数とよぶ）
x ... 説明に使う変数（原因となる側なので独立変数とよぶ）
r ... 残差　（説明しきれない部分）

というデータがあると仮定しましょう。y と x が与えられ、ここで決めたいのは最適な b₀, b₁ の値です。r は残差 (residual) といって、y_i と b₀ + x_ib₁ との差を表します。

最小二乗法とは残差の二乗和 S を最小化するアプローチです。

S = Σ_i r_i² = Σ (b₀ + x_ib₁ - y_i)²

S を b₀ と b₁ による二次関数とみなします。S の最小値を満たす b₀ と b₁ を求めるには、S を b₀ と b₁ のそれぞれで(偏)微分して 0 とおいた連立方程式を解けばOKです。二乗の式をそのまま微分します。

∂S/∂b₀ = ∑ 2( b₀ + x b₁ - y) = 0

∂S/∂b₁ = ∑ 2( b₀ + x b₁ - y) x = 0

ここから、 y = x b₁ + b₀ という式が出てきます。つまり、目的の b₀ と b₁ は

y₁ = b₀ + x₁ b₁

y₂ = b₀ + x₂ b₁

: :

y_n = b₀ + x_n b₁

を満たすことになります。これを行列の形に書くと

$\mathbf{y = Xb} \quad \mathbf{y} = \begin{bmatrix} y_1\\ y_2\\ \vdots \\ y_n \end{bmatrix}, \mathbf{X} = \begin{bmatrix} 1&x_1\\ 1&x_2\\ \vdots&\vdots\\ 1&x_n \end{bmatrix}, \mathbf{b} = \begin{bmatrix} b_0\\ b_1 \end{bmatrix}$

これから逆行列を用いて b を表せば

b = (X^TX)^-1X^Ty

となります（X^Tについては、以下の一般逆行列の説明を参照）。重回帰の場合も同じ式になります（行列 X の列数が増えるだけ）。与えられた y, x からこの式を計算するだけで自動的に b の値が求まるのです。

R による実習ページ

一般逆行列

すべての行列に逆行列があるわけではありません。そもそも正方（X,Y方向が同じ段数）でないと、逆行列はありません。しかし普通の行列は正方ではありません。そこで正方行列を無理やり作る方法が、自分の転置行列をかけるやり方です。 X^TX は必ず正方になります。そこで y = X b の左側から X^T をかけて

X^T y = (X^TX) b

この式から b を求めることができます。

行列のランク落ち

線形代数における行列のランク落ちとは、線形独立な変数の数が次数より少ない状態を指します。回帰分析でいうと、説明変数間に非常に相関が高いものがある場合です（共線性といいます）。このとき、逆行列の計算も上手くいかず、 b の値がおかしくなります。

Aritalab:Lecture/Math/LR

Contents

回帰分析

最小二乗法

一般逆行列

行列のランク落ち

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

metabolites

Toolbox