奥肯法则 在总体经济学 是简单线性回归的实例。图中应变数 (经济增长率)被推论为与自变数 (失业率变动)存在负向的线性关系。
在统计学 中,简单线性回归 是指仅具有单一的自变数 的线性回归 [ 1] [ 2] [ 3] [ 4] [ 5] ,其中“简单”系单一自变数之意。此回归可用于估计有限的截距 与斜率 以推论应变数 在特定自变数为条件下的均值 。
最小平方法 是常见用于寻求简单线性回归式的方法,目的是得到能使残差平方和 最小的回归式。其它方法,诸如最小绝对偏差 (使残差绝对值的总和最小)、泰尔-森估算 (所有样本点两两配对的斜率中位数做为整体斜率)等,亦可应用于简单线性回归的命题。戴明回归 (考虑自变数与应变数同时为误差来源)的功能虽然与上述方法相似但不属于简单线性回归的范畴,因其不区分自变数与应变数且可能得到多个回归式。
以最小平方法处理简单线性回归,则求得的斜率β 等于自变数x 与应变数y 的皮尔森积动差相关系数 与二者的标准偏差 比值的乘积,
β
^
=
r
x
,
y
s
y
s
x
{\displaystyle {\hat {\beta }}=r_{x,y}{\frac {s_{y}}{s_{x}}}}
而再考虑截距α 则保证使回归线通过自变数与应变数的均值 (x , y ) 。
以下皆以最小平方法 求解简单线性回归式。考虑以下的数学模型 函数
y
=
α
+
β
x
{\displaystyle y=\alpha +\beta x}
,
是一条斜率 为β 且y轴截距 为α 的直线。通常实际上自变数与应变数并非如此完美的关系而存在未知的误差 εi ,即
y
i
=
α
+
β
x
i
+
ε
i
,
i
=
1
,
…
,
n
{\displaystyle y_{i}=\alpha +\beta x_{i}+\varepsilon _{i},i=1,\ldots ,n}
,
以表示第
i
{\displaystyle i}
对资料中自变数与应变数的关系。此模型称为简单线性模型。
计算回归式的目标是根据资料计算估计值
α
^
{\displaystyle {\hat {\alpha }}}
与
β
^
{\displaystyle {\hat {\beta }}}
以“最佳地”估计参数α 与β 。由于采用最小平方法 进行计算,“最佳”系指能使残差平方和
ε
^
i
=
y
i
−
α
−
β
x
i
{\displaystyle {\hat {\varepsilon }}_{i}=y_{i}-\alpha -\beta x_{i}}
最小的参数估计值为目标。换句话说,我们寻求能使Q 函数值最小的解,
Q
(
α
,
β
)
=
∑
i
=
1
n
ε
^
i
2
=
∑
i
=
1
n
(
y
i
−
α
−
β
x
i
)
2
{\displaystyle Q(\alpha ,\beta )=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{\,2}=\sum _{i=1}^{n}(y_{i}-\alpha -\beta x_{i})^{2}}
。
此解为
α
^
{\displaystyle {\hat {\alpha }}}
与
β
^
{\displaystyle {\hat {\beta }}}
[ 6] ,
α
^
=
y
¯
−
(
β
^
x
¯
)
,
β
^
=
∑
i
=
1
n
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
∑
i
=
1
n
(
x
i
−
x
¯
)
2
=
s
x
,
y
s
x
2
=
r
x
y
s
y
s
x
{\textstyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-({\hat {\beta }}\,{\bar {x}}),\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\\&={\frac {s_{x,y}}{s_{x}^{2}}}\\&=r_{xy}{\frac {s_{y}}{s_{x}}}\end{aligned}}}
其中
x
¯
{\displaystyle {\bar {x}}}
与
y
¯
{\displaystyle {\bar {y}}}
分别为x i 与y i 的计数平均数 ,r xy 为x 与y 的皮尔森积动差相关系数 ,s x 与sy 分别为x 与y 的样本标准偏差 ,
s
x
2
{\displaystyle s_{x}^{2}}
与
s
x
,
y
{\displaystyle s_{x,y}}
分别为x 的样本变异数 及x 与y 间的样本共变异数 。
将
α
^
{\displaystyle {\hat {\alpha }}}
与
β
^
{\displaystyle {\hat {\beta }}}
带入
y
^
=
α
^
+
β
^
x
{\displaystyle {\hat {y}}={\hat {\alpha }}+{\hat {\beta }}x}
可得
y
^
−
y
¯
s
y
=
r
x
y
x
−
x
¯
s
x
{\displaystyle {\frac {{\hat {y}}-{\bar {y}}}{s_{y}}}=r_{xy}{\frac {x-{\bar {x}}}{s_{x}}}}
。
此式呈现了r xy 为预先将自变数与应变数预先标准化 后的回归斜率。由于r xy 界于-1 与1 之间,左式的绝对值势必不大于右式,体现了趋中回归 的现象。
以
x
y
¯
{\displaystyle {\overline {xy}}}
表示对应的x 与y 的乘积和,
x
y
¯
=
1
n
∑
i
=
1
n
x
i
y
i
{\displaystyle {\overline {xy}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}}
,
可使r xy 简化成
r
x
y
=
x
y
¯
−
x
¯
y
¯
(
x
2
¯
−
x
¯
2
)
(
y
2
¯
−
y
¯
2
)
{\displaystyle r_{xy}={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{\sqrt {\left({\overline {x^{2}}}-{\bar {x}}^{2}\right)\left({\overline {y^{2}}}-{\bar {y}}^{2}\right)}}}}
。
简单线性回归的判定系数 即为二变数间皮尔森积动差相关系数 的平方:
R
2
=
r
x
y
2
{\displaystyle R^{2}=r_{xy}^{2}}
。
将
β
^
{\displaystyle {\hat {\beta }}}
的估计式分子乘以
(
x
i
−
x
¯
)
(
x
i
−
x
¯
)
{\displaystyle {\frac {(x_{i}-{\bar {x}})}{(x_{i}-{\bar {x}})}}}
,可改写为
β
^
=
∑
i
=
1
n
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
∑
i
=
1
n
(
x
i
−
x
¯
)
2
=
∑
i
=
1
n
(
(
x
i
−
x
¯
)
2
×
(
y
i
−
y
¯
)
(
x
i
−
x
¯
)
)
∑
i
=
1
n
(
x
i
−
x
¯
)
2
{\displaystyle {\hat {\beta }}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\sum _{i=1}^{n}\left((x_{i}-{\bar {x}})^{2}\times {\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}\right)}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}
。
可以看出,回归式的斜率为
(
y
i
−
y
¯
)
(
x
i
−
x
¯
)
{\displaystyle {\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}}
以
(
x
i
−
x
¯
)
2
{\displaystyle (x_{i}-{\bar {x}})^{2}}
为权数的加权平均。因此,
(
x
i
−
x
¯
)
2
{\displaystyle (x_{i}-{\bar {x}})^{2}}
越大的资料对斜率
β
^
{\displaystyle {\hat {\beta }}}
的影响力越大。
α
^
{\displaystyle {\hat {\alpha }}}
可经由下列式子估算:
α
^
=
y
¯
−
β
^
x
¯
{\displaystyle {\hat {\alpha }}={\bar {y}}-{\hat {\beta }}\ {\bar {x}}}
。
由于
β
^
=
tan
(
θ
)
=
d
y
/
d
x
→
d
y
=
d
x
×
β
^
{\displaystyle {\hat {\beta }}=\tan(\theta )=dy/dx\rightarrow dy=dx\times {\hat {\beta }}}
,其中
θ
{\displaystyle \theta }
即为与横轴正值的夹角,可以得到
α
^
=
y
¯
−
d
x
×
β
^
=
y
¯
−
d
y
{\displaystyle {\hat {\alpha }}={\bar {y}}-dx\times {\hat {\beta }}={\bar {y}}-dy}
。
上述数学式中,我们假设每个
x
i
{\displaystyle x_{i}}
皆为常数而每个
y
i
{\displaystyle y_{i}}
皆为随机变数,其中
y
i
{\displaystyle y_{i}}
由回归式及
ε
i
{\displaystyle \varepsilon _{i}}
随机变数而决定。这项假设使得计算斜率的标准误差为不偏unbiased 。
In this framing, when
x
i
{\displaystyle x_{i}}
is not actually a random variable , what type of parameter does the empirical correlation
r
x
y
{\displaystyle r_{xy}}
estimate? The issue is that for each value i we'll have:
E
(
x
i
)
=
x
i
{\displaystyle E(x_{i})=x_{i}}
and
V
a
r
(
x
i
)
=
0
{\displaystyle Var(x_{i})=0}
. A possible interpretation of
r
x
y
{\displaystyle r_{xy}}
is to imagine that
x
i
{\displaystyle x_{i}}
defines a random variable drawn from the empirical distribution of the x values in our sample. For example, if x had 10 values from the natural numbers : [1,2,3...,10], then we can imagine x to be a Discrete uniform distribution . Under this interpretation all
x
i
{\displaystyle x_{i}}
have the same expectation and some positive variance. With this interpretation we can think of
r
x
y
{\displaystyle r_{xy}}
as the estimator of the Pearson's correlation between the random variable y and the random variable x (as we just defined it).
^ Seltman, Howard J. Experimental Design and Analysis (PDF) . 2008-09-08: 227.
^ Statistical Sampling and Regression: Simple Linear Regression . Columbia University. [2016-10-17 ] . When one independent variable is used in a regression, it is called a simple regression;(...)
^ Lane, David M. Introduction to Statistics (PDF) . : 462.
^ Zou KH; Tuncali K; Silverman SG. Correlation and simple linear regression.. Radiology. 2003, 227 (3): 617–22. ISSN 0033-8419 . OCLC 110941167 . PMID 12773666 . doi:10.1148/radiol.2273011499 (English) .
^ Altman, Naomi; Krzywinski, Martin. Simple linear regression. Nature Methods. 2015, 12 (11): 999–1000. ISSN 1548-7091 . OCLC 5912005539 . PMID 26824102 . doi:10.1038/nmeth.3627 (English) .
^ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics , Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285