回帰分析について

回帰分析とは

関数f(x)を決定することです。例えば、単位面積あたりに与えた肥料の量をx、そこから収穫できる野菜の量をy=f(x)とします。手元には、5区画でのこれらのデータがあるとします。以下のようなイメージです。

区画番号
x   10   12   9   15   10
y 100 200 60 100 120



スポンサードリンク

そして「回帰分析をする」とは、上記のデータからy=f(x)を求めることに他なりません。y=f(x)を求めれば、他の区画での収穫量の予測とか、逆に収穫量がわかっている時に、与えた肥料の量を知ることもできますね

今回の例は、変数が一つでyがxの一次関数で表せますが、必ずしも一次の関数であらわせるとは限らず、一般的な表現としては、y=f(x1,x2,…,xk)となります。そして関数fの形を推測する場合、一般的には指数関数や多項式のような制約を考えて、分析をします。しかし単純に回帰分析と呼ばれる場合は上記の例のような線形回帰分析をさすことが多いです。そのため線形回帰分析では、関数の形を
\begin{eqnarray}
y = a + bx
\end{eqnarray}
と仮定します。この関数の形状をみてわかる通り、ようは一次関数の方程式を求めれば良いわけです。そして中学生がやる一次関数の求め方とはその導出方法が少し異なるだけです。以下ではその導出方法について述べていきます。

最小2乗法

ここでは、簡単のため変量を必ずしも確率変数とは見ないという立場をとります。すなわち、先ほどの畑の例では、区画番号と肥料の量(x)が同じなら、yは不変であるということです。確率変数なら、次にデータを採取した場合、区画と肥料の量が同じでも、収穫される量(y)は必ずしも、前回と一致しない(確率変動する)ということですが、今回はそれは考えません。毎回同じ値(収穫量)を取るということです。

上の例で言えば、\((x_i,y_i),i=1,2,…,5をxーy平面状に記入します。これらの5個の点が、ある一直線状に乗れば、その一次式がxとyの関係式となり、分析せずとも回帰分析できたことになるが、実際はそれらの点が一つの直線上に乗ることはなく、どのような直線を選んでも、必ずその直線からずれる点は存在します。以下に概念図を示します。

 

求める一次式を[latex]y=ax+b\)とすると、Qは式の形からわかる通り、ある直線からのyのずれの大きさ(誤差)の総和であり、この値(\(Q(a,b)\))を最小にするaとbを求めるのが、この一次式を表現するのに最適と考えます。この導出法(考え方)が最小2乗法です。

実際にaとbを求める際には、xとyで偏微分してやり、出てきたそれぞれの導関数が0となるようにあとは連立させて解くだけです。関数の最小値を求める時の「微分して得られた関数=0」というのは微分、偏微分関係なしに成り立つものです。

今回は得られるデータが確率変数ではなく、固定というのを想定しましたが、得られるデータが確率変数(同じ区画でも得られる収穫量が違う)場合もあります。その場合は、回帰係数(aとb)の点推定や区間推定を行います。これについては別途記事を用意して書こうと思います。


スポンサードリンク

 

記事が役に立ったらシェア!

投稿者:

中村 俊

中村 俊

1993/09/04生まれ。機械系大学院を休学し、ベンチャーでインターンしている最中。直近では、デカルトの「方法序説」に感銘を受けた。 趣味:読書、web開発の勉強、異分野の論文読んだり、記事書いたり。 最終的には経営者か研究者になりたい。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA