搜档网
当前位置:搜档网 › 岭回归

岭回归

岭回归
岭回归

实验八:岭回归

实验题目:

7.一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法,表7.5是该银行所属25家分行2002年的有关业务数据。

(1)计算y与其余四个变量的简单相关系数。

(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?(3)分析回归模型的共线性。

(4)采用后退法和逐步回归法选择变量,所得回归方程的回归系数是否合理,是否还

存在共线性?

(5)建立不良贷款y对4个自变量的岭回归。

(6)对第4步剔除变量后的回归方程再做岭回归。

(7)某研究人员希望做y对各项贷款余额,本年累计应收贷款贷款项目个数这三个变量的回归,你认为这种做是否可行,如果可行应该如何做?

实验目的:利用岭估计解决多重共线性问题

SPSS主要操作:需要编程序,进入Syntax语法窗口,录入以下命令:INCLUDE’c:Program Files\spss 10.0\Ridge regression.sps’.(该命令因spss安装的路径不同而要作相应的修改)

Ridgereg enter=x1 x2 x3

/dep=y(在选出k,比如k=0.5,再增加一条命令/k=0.5)

SPSS输出结果及答案:

(1)计算y与其余四个变量的简单相关系数。

由结果得到,Y与四个自变量的相关系数分别为:0.844, 0.732, 0.7, 0.519,且都通过了显著性检验,说明y与其余4个变量是显著线性相关的。同时也可以看出变量之间也存在一定的线性相关性。

(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?

回归方程为:y=0.04x1+0.148x2+0.015x3-0.029x4-1.022

从上表可看出,方程的自变量x3,x4,x5未通过t检验,说明回归方程不显著,而且由实际意义出发,x4的系数不能是负的。所以所得的回归系数不合理。(3)分析回归模型的共线性。

由这个表可以看出来,第5行中x1,x3的系数分别为0.87 ,0.63,可以说明这两个变量之间有共线性。

(4)采用后退法和逐步回归法选择变量,所得回归方程的回归系数是否合理,是否还存在共线性?

采用后退法,所得回归方程为y=0.041x1+0.149x2-0.029x4-0.972

采用逐步回归法,所得方程为y=0.05x1-0.032x4-0.443

所得x4的系数不合理,是负数,说明存在共线性。

(5)建立不良贷款y对4个自变量的岭回归。

由软件输出的岭迹图可以看出,变量x4的岭回归系数从负值变为正值。其他的变量都很稳定。说明x4变量与其他变量存在多重共线性,所以剔除变量x4。再用y与剩下的变量作岭回归。所得结果如下:

剔除x4之后岭回归系数变化幅度减小很多,并且有下面的图可以看出k值,基本稳定。

K=0.4时,重新作岭回归。

故作岭回归后的方程为

y=-0.819486727+0.016739073x1+0.156806656x2+0.067110931x3 (6)对第4步剔除变量后的回归方程再做岭回归。

取k=0.4,作x1,x4的岭回归。

可得岭回归方程为

y=0.357087614+0 .025805860x1+0.004531316x4

从实际意义上来看,各个系数都能有合理解释。

(7)某研究人员希望做y对各项贷款余额,本年累计应收贷款贷款项目个数这三个变量的回归,你认为这种做是否可行,如果可行应该如何做?

y对各项贷款余额、本年累计应收贷款、贷款项目个数这三个自变量的回归是可行的,可以通过做岭回归,跟第(5)小题一样。

根据(5)可知:

y对x1,x2,x3的岭回归标准化方程为y=0.3726x1+0.2752x2+0.1592x3;

未标准化的岭回归方程为y=-0.8195+0.0167x1+0.1568x2+0.0671x3.

岭回归解决多重共线性

一、引言 回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。 二、认识多重共线性 (一)多重共线性的定义 设回归模型01122p p y x x x ββββε=+++?++如果矩阵X 的列向量存在一组不全 为零的数012,,p k k k k ?使得011220i i p i p k k x k x k x +++?+=, i =1,2,…n ,则称其存在完全共线性,如果022110≈+?+++p i p i i x k x k x k k , i =1,2,…n ,则称其存在 近似的多重共线性。 (二)多重共线性的后果 1.理论后果 对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可 能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n 很小的时候,多重共线性才是非常严重的。 多重共线性的理论后果有以下几点: (1)保持OLS 估计量的BLUE 性质; (2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的 情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。 (3)近似的多重共线性中,OLS 估计仍然是无偏估计。无偏性是一种多维样本或重复抽样 的性质;如果X 变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS 估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。 (4)多重共线性是由于样本引起的。即使总体中每一个X 之间都没有线性关系,但在具体 取样时仍存在样本间的共线性。 2.现实后果 (1)虽然存在多重共线性的情况下,得到的OLS 估计是BLUE 的,但有较大的方差和协方差, 估计精度不高; (2)置信区间比原本宽,使得接受0H 假设的概率更大;

岭回归1

1、做多自变量的线性回归,在统计量面板内选:共线性诊断(L); 2、如结果中的方差膨胀系数(VIF)>5,则可做岭回归分析; 3、新建语法编辑器,输入如下命令: INCLUDE '安装目录\Ridge regression.sps'. RIDGEREG DEP=因变量名 /ENTER = 自变量名(用空格分开) /START=0 /STOP=1[或其它数值] /INC=0.05[或其它搜索步长] /K=999 . 4、选择运行全部,得到各自变量岭迹图和决定系数R2与K值的关系图,在 图上作参考线,取一岭迹平稳并且R2值较大的平衡点的K值; 5、将语法编辑器中的K值改为所选K值,再运行全部,得到详细的最终模型 参数。 岭回归分析实际上是一种改良的最小二乘法,是一种专门用于共线性数据分析的有偏估计回归方法。岭回归分析的基本思想是当自变量间存在共线性时,解释变量的相关矩阵行列式近似为零,X'X是奇异的,也就是说它的行列式的值也接近于零,此时OLS估计将失效。此时可采用岭回归估计。岭回归就是用X'X+KI代替正规方程中的X'X,人为地把最小特征根由minλi提高到min(λi+k),希望这样有助于降低均方误差。SAS可以用来做岭回归分析 岭回归分析 1 岭回归估计量 岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。 根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。 在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为 rXXb=ryX 式中,rXX是X的相关系数矩阵,ryX是y与所有自变量的相关系数向量。 岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+

岭回归分析

岭回归分析 一、普通最小二乘估计带来的问题 当设计矩阵X 呈病态时,X 的列向量之间有较强的线性相关性,即解释变量间出现严重的多重共线性,在这种情况下,用普通最小二乘法估计模型参数,往往参 数估计的方差太大,即jj jj j L C 2)?var(σβ=很大,j β?就很不稳定,在具体取值上与真值有较大的偏差,有时会出现与实际经济意义不符的正负号。下面看一个例子,可以说明这一点。 假设已知1x ,2x 与y 的关系服从线性回归模型:ε+++=213210x x y ,给定1x ,2x 的10个值,如下表1,2行所示: 表7.1 然后用模拟的方法产生10个正态随机数,作为误差项ε,见表第3行。然后再由回归模型i i i i x x y ε+++=213210计算出10个i y 值,见表第4行。现在假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计得:0 ?β=11.292,1?β=11.307,2 ?β=-6.591,而原模型的参数0β=10,1β=2,2β=3看来相差太大。计算1x ,2x 的样本相关系数得12r =0.986,表明1x 与2x 之间高度相关。通过这个例子可以看到解释变量之间高度相关时,普通最小二乘估计明显变坏。 二、岭回归的定义 当自变量间存在多重共线性,|X X '|≈0时,设想给X X '加上一个正常数矩阵kI (k>0)那么X X '+kI 接近奇异的程度就会比X X '接近奇异的程度小得多。考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X 表示,定义y X kI X X k '+'=-1)()(?β称为β的岭回归估计,其中,k 称为岭参数。由于假设X 已经标准化,所以X X '就是自变量样本相关阵。y 可以标准化也可以未标准化, 如果y 也经过标准化,那么计算的实际是标准化岭回归估计。)(?k β 作为β的估计应比最小二乘估计β ?稳定,当k=0时的岭回归估计)0(?β就是普通的最小二乘估计。因为岭参数k 不是唯一确定的,所以得到的岭回归估计)(?k β 实际是回归参数β的一个估计族。

岭回归理论知识

一、普通最小二乘估计带来的问题 当自变量间存在多重共线性时,回归系数估计的方差就很大,估计值就很不稳定。此时模型或数据的微小变化有可能造成系数估计的较大变化,对预测值产生较大影响。下面进一步用一个模拟的例子来说明这一点。 例1 假设已知1x ,2x 与y 的关系服从线性回归模型 ε+++=213210y x x 给定1x ,2x 的10个值,如下表: 表1. 二.、岭回归提出的背景 岭回归是1970年由Hoerl 和Kennard 提出的, 它是一种有偏估计,是对最小二乘估计的改进。 设有多重线性回归模型εβ+=X y ,参数β的最小二乘估计为 y )(?1X X X ''=-β

则 122)()?(-'=-X X tr E σββ 242)(2)?(-'=-X X tr D σββ 当自变量出现多重共线性时,普通最小二乘估计明显变坏。当0≈'X X 时,i λ1 就会变得很大,这时,尽管β ?是β的无偏估计,但β?很不稳定,在具体取值上与真值有较大的偏差,甚至会出现与实际意义不符的正负号。 设想给X X '加上一个正常数矩阵kI (0>k ),那么kI X X +'接近奇异的程度就会变小。先对数据作标准化,标准化后的设计阵仍用X 表示。 称 为岭回归估计。这里的k 成为岭参数。当0=k 时的岭回归估计就是普通的最小二乘估计。 因为岭参数k 不是唯一确定的,所以我们得到的岭回归估计)(?k β实际是回归参数β的一个估计族,取不同的k 值时)(?k β的取值不同。以k 为横坐标,) (?k β为纵坐标的直角坐标系,可分析β估计族的稳定性。 优点:比最小二乘估计更稳定 三、岭迹分析 在岭回归中,岭迹分析可用来了解各自变量的作用及自变量之间的相互关系。下图所反映的几种有代表性的情况来说明岭迹分析的作用。 y )()(?1X kI X X k '+'=-β

岭回归研究分析

岭回归分析

————————————————————————————————作者:————————————————————————————————日期:

岭回归分析 一、普通最小二乘估计带来的问题 当设计矩阵X 呈病态时,X 的列向量之间有较强的线性相关性,即解释变量间出现严重的多重共线性,在这种情况下,用普通最小二乘法估计模型参数,往往参 数估计的方差太大,即jj jj j L C 2)?var(σβ=很大,j β?就很不稳定,在具体取值上与真值有较大的偏差,有时会出现与实际经济意义不符的正负号。下面看一个例子,可以说明这一点。 假设已知1x ,2x 与y 的关系服从线性回归模型:ε+++=213210x x y ,给定 1x ,2x 的10个值,如下表1,2行所示: 表7.1 序号 1 2 3 4 5 6 7 8 9 10 (1) x 1 1.1 1.4 1.7 1.7 1.8 1.8 1.9 2.0 2.3 2.4 (2) x 2 1.1 1.5 1.8 1.7 1.9 1.8 1.8 2.1 2.4 2.5 (3) εi 0.8 -0.5 0.4 -0.5 0.2 1.9 1.9 0.6 -1.5 -1.5 (4) y i 16.3 16.8 19.2 18.0 19.5 20.9 21.1 20.9 20.3 22.0 然后用模拟的方法产生10个正态随机数,作为误差项ε,见表第3行。然后再由回归模型i i i i x x y ε+++=213210计算出10个i y 值,见表第4行。现在假设回归 系数与误差项是未知的,用普通最小二乘法求回归系数的估计得:0 ?β=11.292, 1?β=11.307,2?β=-6.591,而原模型的参数0β=10,1 β=2,2β=3看来相差太大。计算1x ,2x 的样本相关系数得12r =0.986,表明1x 与2x 之间高度相关。通过这个例子可以看到解释变量之间高度相关时,普通最小二乘估计明显变坏。 二、岭回归的定义 当自变量间存在多重共线性,|X X '|≈0时,设想给X X '加上一个正常数矩阵kI (k>0)那么X X '+kI 接近奇异的程度就会比X X '接近奇异的程度小得多。考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X 表示,定义 y X kI X X k '+'=-1)()(?β 称为β的岭回归估计,其中,k 称为岭参数。由于假设X 已经标准化,所以X X '就是自变量样本相关阵。y 可以标准化也可以未标准化, 如果y 也经过标准化,那么计算的实际是标准化岭回归估计。)(?k β 作为β的估计应比最小二乘估计β ?稳定,当k=0时的岭回归估计)0(?β就是普通的最小二乘估计。因为岭参数k 不是唯一确定的,所以得到的岭回归估计)(?k β 实际是回归参数β的一个估计族。

岭回归数据

数据整理 时间进口贸易量 (万美元)国内生产总 值(亿元) 汇率消费者物价 指数 关税税收(亿 元) 2000 22510000 99214.6 8.28 100.4 750.48 2001 24360000 109655.2 8.27 100.7 840.52 2002 29520000 120332.7 8.27 99.2 704.27 2003 41276000 135822.8 8.27 101.2 923.13 2004 56123000 159878.3 8.27 103.9 1043.77 2005 65995000 184937.4 8.2 101.8 1066.17 2006 79146000 216314.4 7.98 101.5 1141.78 2007 95611000 265810.3 7.61 104.8 1432.57 2008 113309000 314045.4 6.95 105.9 1769.95 2009 100592320 340902.8 6.84 99.3 1483.81 2010 139624000 401512.8 6.77 103.3 2027.83 2011 174350000 473104 6.46 105.4 2559.12 2012 181783000 518942.1 6.31 102.6 2783.93 2013 195000000 568845.2 6.19 102.624 2630.61 2014 196000000 636463 6.14 102 2843.41 表1----进口贸易量与各项经济指标 Source | SS df MS Number of obs = 15 ----------------------------------------------------------------------------- F( 4, 10) = 492.61 Model | 7.96904648 4 1.99226162 Prob > F = 0.0000 Residual | .040442772 10 .004044277 R-squared = 0.9950 ------------------------------------------------------------------------------ Adj R-squared = 0.9929 Total | 8.00948925 14 .572106375 Root MSE = .06359 ------------------------------------------------------------------------------------------------------------------------------- lnimp | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+----------------------------------------------------------------------------------------------------------------- lngdp | 1.687917 .1619808 10.42 0.000 1.327001 2.048833 lncpi | 3.142361 1.429341 2.20 0.053 -.0424086 6.327131 lnrate | 2.999613 .7138562 4.20 0.002 1.409042 4.590183 lntax | -.0057671 .2836861 -0.02 0.984 -.6378591 .6263248 _cons | -23.28291 5.423609 -4.29 0.002 -35.36746 -11.19835 -------------------------------------------------------------------------------------------------------------------------------- 表2计量模型的stata结果

岭回归3

岭回归的共线性的处理 语法: INCLUDE ' C:\Program Files\SPSS\Ridge Regression.sps' ridgereg enter=自变量列表 /dep=因变量名 /start=K值起始值,默认为0 /stop= K值终止值,默认为1 /inc=K值搜索步长,默认为0.05 /k=允许搜索的K值个数,默认为999 步骤: 1、打开需要处理的数据文件; 2、执行file/new/syntax,并根据上述的语法格式写入程序; 3、点击“syntax”窗口上的播放箭头,或者执行“Run/all” 例题分析(摘自张文彤《高级教程》) 例 6.3现测得22例胎儿的身长、头围、体重和胎儿受精周龄,具体数据见文件ridgereg.sav。研究者希望能建立由前三个外形指标推测胎儿周龄的回归方程。(陈峰《医用多元统计分析方法》P46) 程序: INCLUDE ' C:\Program Files\SPSS\Ridge Regression.sps' ridgereg enter=long touwei weight /dep=y /inc=0.01. 结果分析:

可见当k=O.04~O.06时,回归系数开始趋于稳定。如选择k=0.05,则三个变量的系数分别为0.317746、O.1 113和0.537 699,可写出方程如下:zy=0.311 746 x zlong+0.111 3 x ztouwei+0.537 699 x zweight相应的决定系数为0.949 32,虽然没有原方程的0.975 42高,但方程中三个变量的系数均为正,符合专业知识。也就是说,岭回归通过丢弃少量的信息,换来了方程系数的合理估计。 图6.6为将不同k值时各变量的回归系数连成的曲线,该曲线被形象地称为岭迹(Ridge Trace),这就是岭回归名称的由来。可见当k到达0.05附近时,三条岭迹都开始变得平稳,这和前面的结论相一致。 图6.7为不同k值时决定系数的下降情况,为了便于观察,笔者在k=0.05处添加了一条参考线,可见决定系数一开始明显下降,但当k超过0.05后,决定系数一直处于缓慢下降中,没有出现明显的波动。图6.7反映出的信息也支持前面做出的结论。

SPSS岭回归方法

岭回归程序调用语法(蔡国雄) 2011-12-7 1、运行:include'C:\Documents and Settings\Administrator\桌面\cgxridge.sps'. ridgereg dep=y/enter x1 x2 x3 x4 x5. ************************************** 输出结果如下:

2、运行:ridgereg dep=y/enter x2 x3 x4 x5/start=0.0/stop=0.2/INC=0.02. ******************************* 输出结果如下:

3、运行:ridgereg dep=y/enter x2 x3 x4 x5/k=0.08. ********************************************* 输出结果如下: 到此结束 附上数据: y x1 x2 x3 x4 x5 231 3010 1888 81491 14.89 180.92 298 3350 2195 86389 16 420.39 343 3688 2531 92204 19.53 570.25 401 3941 2799 95300 21.82 776.71 445 4258 3054 99922 23.27 792.43 391 4736 3358 106044 22.91 947.7 554 5652 3905 110353 26.02 1285.22 744 7020 4879 112110 27.72 1783.3

997 7859 5552 108579 32.43 2281.95 1310 9313 6386 112429 38.91 2690.23 1442 11738 8038 122645 37.38 3169.48 1283 13176 9005 113807 47.19 2450.14 1660 14384 9663 95712 50.68 2746.2 2178 16557 10969 95081 55.91 3335.65 2886 20223 12985 99693 83.66 3311.5 3383 24882 15949 105458 96.08 4152.7

6、岭回归

6、岭回归(1)简单相关系数 相关性 不良贷款各项贷款余额本年累计应收贷 款贷款项目个数 本年固定资产投 资额 Pearson 相关性不良贷款 1.000 .844 .732 .700 .519 各项贷款余额.844 1.000 .679 .848 .780 本年累计应收贷款.732 .679 1.000 .586 .472 贷款项目个数.700 .848 .586 1.000 .747 本年固定资产投资额.519 .780 .472 .747 1.000 Sig. (单侧)不良贷款. .000 .000 .000 .004 各项贷款余额.000 . .000 .000 .000 本年累计应收贷款.000 .000 . .001 .009 贷款项目个数.000 .000 .001 . .000 本年固定资产投资额.004 .000 .009 .000 . N 不良贷款25 25 25 25 25 各项贷款余额25 25 25 25 25 本年累计应收贷款25 25 25 25 25 贷款项目个数25 25 25 25 25 本年固定资产投资额25 25 25 25 25 Y与四个自变量x1、x2、x3、x4的相关系数为0.844、0.732、0.700、0.519。说明y与4个变量是显著线性相关的,自变量之间也存在一定的相关性。 (2) 系数a 模型非标准化系数标准系数 t Sig. B 的 95.0% 置信区间相关性 B 标准误差试用版下限上限零阶偏部分 1 (常量) -1.02 2 .782 -1.306 .206 -2.654 .610 各项贷款余额.040 .010 .891 3.837 .001 .018 .062 .844 .651 .386 本年累计应收贷款.148 .079 .260 1.879 .075 -.016 .312 .732 .387 .189 贷款项目个数.015 .083 .034 .175 .863 -.159 .188 .700 .039 .018 本年固定资产投资额-.029 .015 -.325 -1.937 .067 -.061 .002 .519 -.397 -.195 回归方程: y=-1.022+0.040x1+0.148x2+0.015x3-0.029x4。在0.05的水平下,自变量x2、x3、 x4没有通过t检验,x4的回归系数不合理。

相关主题