搜档网
当前位置:搜档网 › 11. Logistic回归分析

11. Logistic回归分析

11. Logistic回归分析
11. Logistic回归分析

11 Logistic 回归分析

在中医药科研中,经常遇到因变量是分类变量(包括二分类和多分类)的资料,如治愈与未治愈,生存与死亡,发病与未发病,疗效评价分显效、好转、无效等级等。这类资料,由于因变量是分类变量不具有连续性和正态性,直接用一般多元线性回归分析是不妥的,需用Logistic 回归分析。Logistic 回归分析是一种适用于因变量为分类变量的回归分析,近年来在许多研究领域得到了广泛的应用。

Logistic 回归属于概率型非线性回归,它分为非条件Logistic 回归和条件Logistic 回归(又称配比Logistic 回归),二者根本的差别在于构造Logistic 模型时是前者未使用条件概率,后者使用了条件概率。

11.1 二分类资料的Logistic 回归分析

如果因变量Y 是二分类变量,其取值只有两种,如阳性(编码为1)和阴性(编码为0),这时要说明的问题是阳性率(1)r p P Y ==与自变量X 间的关系,可进行因变量为二分类资料的Logistic 回归。二分类Logistic 回归对自变量没有特殊要求,自变量可以是分类变量和连续变量。

11.1.1 一个两分类自变量的二分类Logistic 回归

一个自变量的二分类Logistic 回归要拟合的Logistic 回归方程为:

log ()ln()1p

it p p

==-110X b b +

例11-1 《实用中医药杂志》2006年1月

第22卷1期,复方血栓通胶囊配合肌苷片治疗青少年近视,数据见表11-1。试作Logistic 回归。 解 本例分组为自变量,疗效为因变量。以fz 表示分组(值标签:1=“治疗组”、0=“对照组”)、lx 表示疗效(值标签:1=“有效”、0=“无效”)、f 表示频数变量建立数据文件,如图11-1。

1.操作步骤

(1)指定频数变量:选择菜单Data →Weight cases ,在弹出的

Weight cases 对话框中,将频数变量f 送入Frequency 框中;单击

OK 。

(2)进行二分类Logistic 回归分析。选择菜单Analyze →Regression →Binary Logistic (二分类Logistic ),弹出Logistic Regression 对话框,如图11-2;将因变量lx 送入Dependent (因变量)框内,将自变量fz 送入Covariates (协变量)框内;单击Options (选项)按钮,

表11-1 复方血栓通胶囊疗效观察

组别 例数 有效 无效

治疗组 131 102 29 对照组 76 18 58

图11-1 例11-1数据文件

在弹出的Options对话框中,选中CI for exp (B),单击Continue;单击OK。

图11-2 Logistic Regression对话框

2.输出结果

(1)图11-3是因变量赋值表。这是一个特别要留意的表,表中因变量原码值(Original Array Value)是按升序排列后转换为内码值(Internal Value)0

和1,Binary Logistic过程默认以内码值1所对应的因变

量取值的概率建立模型,本例以P(lx=1)即有效的概率建

立模型。如果本例用1表示有效,2表示无效,则无效2

对应的内码值为1,将以P(lx=2)即无效的概率建立模型,

尽管所有统计检验结果仍然相同,但是回归系数的符号

全将反过来,所计算的Exp(B)就完全不同了。搞清实际分析资料因变量的赋值情况,对分析结果的正确解释很重要。

(2)初步模型拟合(输出结果中Block 0: Beginning Block部分,此处略去了输出图表)。给出模型不含任何自变量,只有常数项的一些分析结果,包括Classification Table表,给出模型不含任何自变量时,对所有观察对象的疗效情况进行预测,正确预测的百分率为58.0%;Variables in the Equation表,给出只有常数项的参数检验结果;Variables not in the Equation 表,给出若将现有模型外的各个变量纳入模型,对整个模型的拟合优度改变是否有统计学意义。

(3)引入自变量后的模型分析结果(输出结果中Block 1: Method = Enter部分)。SPSS 提供了7种建立Logistic回归模型的方法,可通过Logistic Regression对话框(见图11-2)中Method下拉列表框来选择,默认Enter法,即强迫所有的自变量同时进入模型,本例为Enter法(全变量模型)。结果如下:

①模型系数总检验(见图11-4)。给出了三个结果:Step统计量为每一步与前一步相比的似然比检验结果;Block统计量是指若将block1与block0相比的似然比检验结果;Model 统计量则是上一个模型与当前模型的似然比检验结果。本例由于选择了默认的Enter法,三个统计量及其假设检验结果是一样的。χ2=59.969,P<0.01(Sig.为0.000),表明自变量fz

引入模型有统计学意义。

若是两个或两个以上自变量引入模型,模型系数总检验得到P α<,拒绝0H ,接受1

H (0:210====k H βββ ,即除常数项外所有的总体回归系数全为0),表明至少有一个自变量的作用有统计学意义。

图11-4 模型系数总检验 图11-5 模型的贡献

②模型的贡献(见图11-5)。给出-2倍的似然对数值为221.711,结合①中提及的似然比检验结果,可认为模型成立。Cox and Snell R 2和Nagelkerke R 2分别为0.252和0.338,其含义与多元回归中的决定系数意义相同,表示回归模型对因变量变异贡献的百分比。

③分类表(见输出结果中Classification Table ,此处略)。给出现在模型对因变量的分类预测情况。模型中已经引入了一个自变量,由这个自变量获得的预测概率≥0.5,则这个观测被预测分类为1;<0.5则预测为0,由此得到正确预测的百分率为77.3%,比没有自变量只有常数项的58.0%提高了19.3 %。

④进入回归方程的变量分析结果(见图11-6)。这是Logistic 回归分析结果最重要的一部分。包括最终引入模型的自变量及常数项的系数值(B )、标准误(SE )、Wald 卡方值(Wald )、自由度(df )、P 值(Sig.)、OR 值(Exp(B))及其95%的可信区间。

图11-6 例11-1参数估计及检验

本例变量fz 的系数为b 1=2.428,Wald 卡方值为50.340,0.01P <,有统计学意义。自变量fz 的比数比为OR =333.11428.21

==e e

b ,即治疗组有效例数与无效例数之比,为对照

组有效例数与无效例数之比的11.333倍,可认为治疗组的疗效高于对照组。常数项b 0=-1.170。本例Logistic 回归方程为:

log ()ln() 1.170 2.4281p

it p fz p

==-+-。

值得注意的是OR 值在不同的设计中意义不同:①病例-对照研究(回顾性研究),OR 值为比数比,要注意病例与对照两组人数的比例是人为规定的,不代表自然人群中真实的

病人与正常人的比值,因此,根据病例-对照研究资料建立的Logistic 回归方程中,常数项意义不大,主要针对结果中自变量的回归系数及其相应的比数比OR 值的意义作解释,不适宜直接用于所研究事件发生概率的预测和判别。②队列研究(即前瞻性研究),当队列研究的事件发生的阳性率很低(接近于0)时,可把OR 近似看作相对危险度(RR ),另外可用建立的Logistic 回归方程对所研究的事件发生概率进行预测和判别。③疗效评价中的设计类似队列研究,但OR 不能当作RR ,还是作为比数比且结合具体问题加以解释为好。

11.1.2 两个两分类自变量的二分类Logistic 回归

要拟合的Logistic 回归方程为:

01122log ()ln()1p

it p b b X b X p

==++-

SPSS 实现两个两分类自变量的二分类资料Logistic 回归分析与实现一个两分类自变量的二分类资料Logistic 回归分析在步骤方法上是相同的。不同之处在于在建立SPSS 数据集时两个自变量各占一列,因变量一列,频数一列,共四列。操作时,需将两个自变量都移到Covariates 框内;结果给出常数项及两个自变量对应的参数估计及其检验统计量值,有两个比数比值。

11.1.3 无序多分类自变量的二分类Logistic 回归

自变量中一个或多个为无序多分类变量,其Logistic 回归,在方法上同上述二分类资料的Logistic 回归,只是要对自变量的不同水平构造哑变。某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减1。将哑变量引入模型,其结果无论有无统计学意义,都是相对事先确定该自变量某一类为对照而言的。SPSS 对字符型多分类无序自变量,以(Cat )标示在该自变量后的括号内,系统默认相互比较的方法为Indicator ,且以最后的那个分类为对照。

11.1.4 有序多分类自变量的二分类Logistic 回归

有时,Logistic 回归中自变量为有序多分类变量,即等级变量,如文化程度可分为文盲、小学、中学、大学及以上。这种资料的Logistic 回归可分两种情况处理,如果自变量的等级分组与logitP 呈线性关系,即等级效应等比例增加或减少,则该自变量可以作为一个数值型自变量引入模型,否则,将等级变量当作无序多分类自变量,以哑变量的形式引入模型进行分析。

11.1.5 引入数值型自变量的二分类Logistic 回归

数值变量直接引入模型,得到相应的比数比OR 是指自变量增加一个单位(如年龄增加1岁)比数自然对数值的变化量。若将数值自变量分成几个组段,如自变量年龄按10岁间隔分组引入模型时,其OR 值是指年龄每增加10岁比数自然对数值的变化量。特殊情况下,数值变量(或分组后的变量)与logitP 不呈线性关系,例如,研究年龄与冠心病的关系,从

理论上讲,年轻时年龄增加10岁,与年老时年龄增加10岁,患病风险变化不同,即OR 的意义不等同,这种情况应将数值变量分组转变为分类变量,用哑变量进行分析。

例11-2 为了探索胃癌的有关危险因素和保护因素,对33例胃癌病人和35例对照者进行病例对照研究,考察的危险因素作为自变量,分别为x1(年龄)、x2(蛋白质摄入量,由低到高分别为0、1、2、3、4)、x3(新鲜蔬菜及水果食用情况,良好、一般、不足、严重不足分别为0、1、2、3)、x4(吃盐渍食物及嗜重盐饮食,由轻到重分别为0、1、2、3、4)、x5 (饮食习惯,良好、一般、不良、严重不良分别为0、1、2、3)、x6 (精神心理因素,乐观、较乐观、一般、不良分别为0、1、2、3)。是否患胃癌为因变量y(未患胃癌者为y=0,患胃癌者为y=1),结果资料见表11-2。试进行Logistic回归分析,且用逐步回归分析方法筛选上述因素。

表11-2胃癌危险因素成组设计的结果资料

列68行的数据文件。

选择菜单Analyze →Regression →Binary Logistic,在弹出的Logistic Regression对话框中,将因变量y送入Dependent框内,将自变量x1、x2、x3、x4、x5、x6送入Covariates 框内;单击OK。

主要输出结果见图11-7。可见,

2

x和

3

x自变量对应的P值均大于0.05,无统计学意义;x1、x4、x5和x6自变量对应的P值均小于0.05,有统计学意义。说明影响胃癌发生的因素为年龄、吃盐渍食物及嗜重盐饮食、饮食习惯、精神心理因素,与蛋白质摄入量大小及新鲜蔬菜及水果食用多少无关。

图11-7 例11-2参数估计及检验

偏回归系数有统计学意义,比数比1

>

OR的自变量为x1、x4、x5和x6,相应的比数比(i b e

OR=)分别为:1.133、5.933、7.878和4.614;按

i

b为正值时1>

OR,其相应自变量x i为危险因素,可以得出年龄越大、吃盐渍食物及嗜重盐饮食越重和精神心理不良患胃癌的可能性越大,成为胃癌的危险因素。

注意,这里自变量x1(年龄)对应的比数比是以一岁为间隔的比数比,即由后一岁的Odds比上前一岁的Odds得到的。如41岁的Odds比上40岁的Odds或42岁的Odds比上41岁的Odds或71岁的Odds比上70岁的Odds,以一岁为间隔得到的OR值均为133

.1

125

.0=

e。

下面对本例作进一步的讨论:

1.求10岁为间隔的OR 值。如果希望得到年龄以10岁为间隔的OR 值,只要计算

110100.125 3.49b e e ??==即可,或在本例数据文件中将x 1进行变量转换(通过SPSS 的Transform →Compute Variable 过程来实现),生成变量g ,使10/1x g =,然后选择菜单

Analyze →Regression →Binary Logistic ,将因变量y 送入Dependent 框内,将自变量g 、x 2至x 6送入Covariates 框内,单击OK 。主要输出结果见表图11-8,得到年龄对应的比数比OR 为3.477(与49.31

10=?b e

不等,是由于125.01=b 小数点保留位数不同所致),是以10

岁为间隔的比数比,即50岁的Odds 比上40岁的Odds 或73岁的Odds 比上63岁的Odds 。

图11-8 10岁为间隔的OR 值

2.年龄按等级分组的情况。考虑年龄以一岁为间隔或以十岁为间隔比数比的实际意义不大,不妨将年龄按等级分组,得到的比数比便是以一个等级为间隔的比数比。在本例数据文件中生成新变量gg ,当40≤ x 1<50时,gg =1;当50≤ x 1<60时,gg =2;当60≤ x 1<70时,gg =3;当70≤ x 1<80时,gg =4。选择菜单Analyze →Regression →Binary Logistic ,将因变量y 送入Dependent 框内,将自变量gg 、x 2至x 6送入Covariates 框内,单击OK 。输出结果,略。

3.构造哑变量引入模型。在某些情况下,相同年龄间隔或按等级分组的OR 值意义不完全一致,这时需将年龄分组,由数值变量变为无序多分类变量,构造相应的哑变量引入模型,得到对应的比数比是以对比区组为基准的比数比,SPSS 默认的是基准组为最后一个组别,也可自己定制为第一个组别。SPSS 实现自变量为无序多分类变量的Logistic 回归分析步骤如下:

激活SPSS ,打开已把年龄分组的数据集,选择菜单Analyze →Regression →Binary Logistic ,将因变量y 送入Dependent 框内,将自变量gg 、x 2至x 6送入Covariates 框内;单击Categorical (多分类变量的比较)按钮,在弹出的Define Categorical Variables (定义多分类变量)对话框中,将变量gg 送入到右边的Categorical 框内,选中右下角的First (系统默认Last ),单击Change 按钮,随即Categorical 框内的内容变为gg (Indicator(first))),单击Continue ,返回主对话框,在Covariates 框内gg 变量后面跟着一个Cat 标识,表示gg 变量是以第一区组为基准形成哑变量引入模型的;单击OK 。输出结果,略。

4.Logistic 逐步回归。以上为默认方法为Enter 法,即强迫所有的自变量同时进入模型,

若对本例进行变量筛选,可采用逐步回归分析,SPSS 操作步骤如下:

选择菜单Analyze →Regression →Binary Logistic ,将因变量y 送入Dependent 框内,将自变x 1至x 6送入Covariates 框内,单击Method 框右端的下拉箭头,选Forward: Conditional ,单击OK 。另外,需要说明的是:SPSS 默认引入(Entry )和剔除(Removal)变量的检验水准分别为0.05和0.10,需要变更时,可点击Options 选项,在弹出的对话框里相应处进行设置。

输出结果增加了逐步回归分析的内容,最后汇总给出引入或未引入回归模型的自变量检验结果。

图11-9 逐步回归结果

本例主要输出结果见图11-9。逐步回归得到的Logistic 回归方程为:

=-=)1ln(

)(log p

p

p it 145613.3320.106 1.721 2.198 1.341x x x x -++++ 因素x 1、x 4、x 5和x 6对应的比数比分别为:1.112、5.589、9.006和3.825。

11.2 有序多分类资料的Logistic 回归分析

如果因变量y 是有序多分类资料也称为等级资料,如疗效评价:显效、有效和无效;尿糖程度:-、+、++、+++和++++等,则应进行有序多分类资料的Logistic 回归分析。如果因变量y 取g 个值,需拟合g -1个logit 模型,例如对于一个取值为1、2、3的有序三分类因变量y ,需拟合2个logit 模型,即:

1.11

111122123

log ()ln(

)ln()1m m p p it p x x x p p p αβββ===++++-+

2.1212

1221122123

log ()ln(

)ln()1m m p p p p it p p x x x p p p αβββ+++===+++

+--

其中,(|)i p P y i x ==,i =1、2、3,第i 个logit 模型计算的是y 取前i 个值的累积概率(i =1、2),1(1|)p P y x =≤,12(2|)p p P y x +=≤。

注意,g -1个logit 模型的回归系数相等,即自变量与因变量的关系相同,只是常数项

改变,所以是g -1条平行直线,这就是为什么有序多分类资料的Logistic 回归模型要求进行数据的平行性检验的原因。SPSS 通过选择Analyze →Regression →Ordinal (有序多分类)过程完成有序多分类因变量资料的Logistic 回归分析。

例11-3 研究性别和两种治疗方法对某病疗效的影响,疗效的评价分为三个有序等级,数据见表11-3。试作Logistic 回归分析。

表11-3 性别和两种治疗方法对某病疗效的影响研究 疗效

性别

治疗方法

显效(C=1)

有效(C=2) 无效(C=3) 合计

女(A=1) 新药疗法(B=1)

16 5 6 21

传统疗法(B=0)

6 7 19 32 男(A=0) 新药疗法(B=1)

5 2 7 14

传统疗法(B=0)

1

10

11

解 c 是因变量,a 、b 是自变量。用a 、b 、c 和f 变量分别表示性别、治疗方法、疗效和频数,建立12行4列的数据文件,如图11-10。

图11-10 例11-3数据文件 图11-11 Ordinal Regression 主对话框

1.指定频数变量 操作同例11-1。

2.进行有序多分类Logistic 回归分析 选择菜单Analyze →Regression →Ordinal ,弹出Ordinal Regression 主对话框,如图11-11;将因变量c 送入Dependent (因变量)框内,将自变量a 、b 送入Covariates (协变量)框内;单击Output (输出)按钮,在弹出的Output 对话框中,选中左下角的Test of parallel lines (平行性检验)选项,单击Continue ,返回主对话框;单击OK 。 主要输出结果的解释:

图11-12中c 的数值是按升序排列的,本例显效、有效、无效分别用1、2、3表示,正好就是升序编码。如果将显效、有效、无效分别用3、2、1表示,结果中摘要表自上而下仍为1、2、3,此时是按无效、有效、显效顺序计算2个logit 模型,参数估计的结果与本例是不同的。所以,尽量将y 值按专业需要的顺序升序编码。

模型拟合检验(Model Fitting Information ):给出-2倍的似然对数值为23.598,

2x =19.887,P <0.01,可认为模型有统计学意义。

模型拟合优度检验(Goodness-of-Fit ):给出Pearson 和Deviance 检验,两者对应的P 值均大于0.05,可认为模型拟合良好。

平行检验(Test of Parallel Lines ):2

x =1.469,P=0.480>0.05,模型的平行性成立。 参数估计(Parameter Estimates ):详见表11-13。特别要注意这张表的解读。如果用SAS 也计算一下本例,将SAS 于SPSS 的结果对比会发现,两个常数项:SAS 是-2.667和-1.813,与SPSS 结果相同,而两个回归系数:SAS 是1.319、1.797,SPSS 是―1.319、―1.797,恰差一个符号。这是因为SPSS 中应用的线性模型形式是11122m m x x x αβββ----,而

SAS 用的是11122m m x x x αβββ+++

+,所以两个软件计算出的回归系数差一个符号,而

写出的2个Logistic 回归模型是相同的,具体形式见下面。

图11-13 例11-3参数估计

111

log ()ln() 2.667 1.319 1.7971p

it p a b p ==-++-,

12

1212

log ()ln() 1.813 1.319 1.7971p p it p p a b p p ++==-++--。

其中,(|,)i p P c i a b ==,i =1、2、3。性别和疗法的回归系数均大于0,且有统计学意义,OR 值分别为740.3319

.1=e

和032.6797.1=e ,可认为女性用新疗法疗效好。

11.3 无序多分类资料的Logistic 回归分析

因变量的水平数大于2,且水平之间不存在等级递增或递减关系的资料为无序多分类资料,对这种资料所进行的Logistic 回归与一般的Logistic 回归方法不同,是通过拟合一种叫做广义Logit 模型(Generalized logits model)来实现的。若因变量有k 个无序分类,则将其中一个分类设为对照,其它分类与之比较,拟合k -1个广义Logit 模型。例如有m 个自变量,因变量Y是取值为a 、b 、c 三个无序分类的变量,以a 为对照,可以得到如下2个Logit 模型:

101111()log ln ()b m m P Y b X itp X X P Y a X βββ??

===++

+??=??(b 与a 比较)

202112()log ln ()c m m P Y c X itp X X P Y a X βββ??

===++

+??=??

(c 与a 比较)

在SPSS 中选择菜单Analyze →Regression →Multinomial Logistic (多项Logistic )可以完

成无序多分类因变量资料的Logistic 回归分析。

例11-4 为了研究胃癌及癌前病变核仁组织变化情况,分析核仁组成区嗜银蛋白(AgNoR )颗粒数量(X 1)及大小(X 2)在胃炎、胃组织不典型增生和胃癌三种胃疾病(Y )中的变化规律以及临床的诊断意义,共检测129例患者,检测结果见表11-4,试作Logistic 回归分析。

表11-4 核仁组成区嗜银蛋白颗粒数量及大小与三种胃疾病的关系 颗粒数量 颗粒大小 三种胃疾病(Y )

(X 1) (X 2) 胃炎(Y =3)

不典型增生(Y =2) 胃癌(Y =1)

较少(X 1=1) 小(X 2=1)

9 0 0 中(X 2=2) 18 1 0

大(X 2=3) 15 8 0 中等(X 2=2) 小(X 2=1) 0 3 0 中(X 2=2) 2 15 2

大(X 2=3) 0 14 4 较多(X 3=3) 小(X 2=1) 0 1 0 中(X 2=2) 0 2 12 大(X 2=3)

23

本例进行因变量为无序多分类资料的Logistic 回归分析,以胃炎(Y =3)为对照,可拟合如下三个广义Logit 模型:

110111122log ln (1)/(3)itp P Y X P Y X X X βββ??====++?? 220211222log ln (2)/(3)itp P Y X P Y X X X βββ??====++??

解 y 是因变量,x 1、x 2是自变量。建立27行4列的数据文件,如图11-14。 1.指定频数变量 操作同例11-1。

2.进行无序多分类Logistic 回归分析 选择菜单Analyze →Regression →Multinomial Logistic (多项Logistic ),弹出Multinomial Logistic Regression 对话框,如图11-15;将因变量y 送入Dependent (因变量)框内,出现y (Last),为Reference Category 的默认设置Last category ,表示以胃炎(Y =3)为对照(若以胃癌(Y =1)为对照,点击Reference Category 选First category ;若以不典型增生(Y =2)为对照,点击Reference Category 选Custom ,并在Value 对应的框内键入2);将自变量x 1和x 2送入Covariate(s)框内(这里把x 1和x 2两个等级变量视为数值变量,若是分类变量需移到Factor(s)框内);单击Statistics 按钮,在弹出的对话框里再选中Goodness-of-fit 和Cell probabilities 及Classification table ,单击Continue ;单击OK 。

图11-14 例11-4数据文件 图11-15 Multinomial Logistic Regression 对话框

主要输出结果:模型拟合检验(Model Fitting Information ):给出-2倍的似然对数值为23.060,2

x =182.964,0.01P <,可认为模型成立。模型拟合优度检验(Goodness-of-Fit ):给出Pearson 和Deviance 检验,两者对应的P 值均大于0.05,可认为模型拟合良好。似然比检验(Likelihood Ratio Tests ):x 1和x 2对应的2

x 值分别为169.123与17.273,其P 值均小于0.01,可认为本例偏回归系数均有统计学意义。参数估计(Parameter Estimates ):见图11-16,可见,所有参数检验均有统计学意义,由此,可得到Y =1与Y =3比较和Y =2

与Y =3比较的两个logit 模型如下。

图11-16 例11-4参数估计

(1) 112

l o g l n (1)/(

3)27.56310.012 3.714i t p P Y X P Y X X X ??====-++?

?

(2) 212log ln (2)/(3)11.357 5.291 1.776itp P Y X P Y X X X ??====-++??

(1)式中x 1和x 2的回归系数均为正值,说明核仁组成区嗜银蛋白(AgNoR )颗粒数量

越多颗粒越大,胃癌与胃炎相比,胃癌发生的概率较大;(2)式中x 1和x 2的回归系数也都为正值,说明核仁组成区嗜银蛋白(AgNoR )颗粒数量越多颗粒越大,胃组织不典型增生与胃炎相比,胃组织不典型增生发生的概率较大。

本例自变量x 1和x 2为升序的等级变量,它们各自对应的比数比均为各自后一个高等级较前一个低等级而言的。

11.4 条件Logistic 回归分析

条件Logistic 回归又称配比Logistic 回归,适用于配比方法收集的资料。每一配比组若包含一个病例与一个对照,则称为1:1配比;每一配比组若包含一个病例与m 个对照,则称1:m 配比;若配比组中的病例数与对照数的比例是不固定的,则称为n :m 配比。配比时,效应发生的概率P (y =1|配比中1人得病)是条件概率,称为条件Logistic 回归。模型中不包括常数项。

11.4.1 1:1配比的Logistic 回归

选择Analyze →Regression →Multinomial Logistic (多项Logistic )过程完成计算。 例11-5 《中药新药与临床药理》2006年第17卷总第77期,Uu 对尿路清敏感性与对四环素敏感性的关系,数据如表11-5所示。用Logistic 回归判断两药的敏感性是否不同。

解 建立如图11-17的数据文件,y 1是尿路清, y 0是四环素,x 1和x 0分别是二者的耐药和敏感,y =y 1-y 0,x =x 1-x 0。

1.指定频数变量 操作同例11-1。

2.进行条件Logistic 回归分析 选择菜单Anal yze →Regression →Multinomial Logistic (多项Logistic ),弹出Multinomial Logistic Regression 对话框,如图11-15;将因变量y 送

入Dependent (因变量)框内,将自变量x 送入Covariate(s)框内;单击左下角Model 按钮,在弹出的对话框中,取消下边的Include intercept in model 选项,单击Continue ;单击OK 。

SPSS 输出结果解释:①警告(Warnings ):说明由于因变量仅有一个取值水平,所以拟合条件Logistic 回归。②数据汇总(Case Processing Summary ):列出数据集中记录情况,63个记录(总样本含量),由自变量不同取值水平组成的亚群有3个。③模型拟合检验(Model Fitting Information ):χ2值为22.504,P <0.01。④伪决定系数(Pseudo R-Square ):给出三种伪决定系数。⑤似然比检验(Likelihood Ratio Tests ):给出负二倍似然对数值、χ2值和P 值,提示x 应留在方程中。

(6)参数估计(Parameter Estimates ):x 的偏回归系数为2.015, Wald χ2 =14.329,sig.为0.000即P <0.01,OR=7.500,表示尿路清敏感例数与耐药例数之比,为四环素敏感例数与耐药例数之比的7.5倍。Logistic 回归方程为:

P (y =1|配比只有1人得病))

.0152ex p(11

x -+=

11.4.2 1:M 配比的Logistic 回归

选择Analyze →Survival →Cox Regression (Cox 回归)过程完成计算。

例11-6 采用1:2配比资料研究20名子宫内膜癌病人与40名对照者,资料如表11-6所示。试用Logistic 回归模型分析患病y 与肥胖x 1、口服避孕药雌激素x 2的关系。

表11-6 胃癌患病1:2配比资料

配比编号 1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 病例 肥胖 1 1 1 0 0 1 1 1 1 0 0 0 1 1 1 0 0 1 1 1 服药 1 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1 1 0 1 对照 肥胖 0 1 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 1 0 0 服药 0 1 1 0 0 0 1 0 1 1 1 1 0 0 0 1 0 0 1 1 对照

肥胖 0 0 1 0 0 1 1 1 1 0 1 0 1 1 0 0 1 0 0 0 服药 0

1

1

1

1

1

1

1

1

1

1

1

1

1

解 建立如图11-18所示的数据文件,因变量为分组fz (病例1,对照0),自变量为肥胖fp (肥胖1,无肥胖0)和服药fy (服药1,未服药0),添加配比编号bh 和虚拟生存时间time (0为截尾)。

表11-5 两种药敏感性的关系 尿路清 四环素 合计 耐药 敏感 耐药 敏感 1 30 4 28 5 58 合计 31 32

63

图11-17 例11-5数据文件

图11-18 例11-6数据文件 图11-19 Cox Regression 对话框

选择菜单Analyze →Survival →Cox Regression (Cox 回归),弹出Cox Regression 对话框,如图11-19,将变量time 移到time 框内,将fz 变量移到status 框内,点击下面的Define Event 按钮,在弹出的对话框里中的Single valve 框内键入1,单击Continue ,返回主对话框,将变量fp 和fy 送入Covariates 框内,将变量bh 送入Strata 框内;单击OK 。

SPSS 输出结果解释:①数据汇总(Case Processing Summary ):概述配比情况。②分层情况(Stratum Status ):略。③无效模型的结果(Block 0: Beginning Block ):给出的负二倍似然对数值为43.944,提示后面加入自变量的模型效果优于无效模型,则其负二倍似然对数值应当小于该值。④正式开始纳入变量(Block 1: Method = Enter ):给出的负二倍似然对数值为33.307,χ2值8.872,P <0.05,说明加入自变量fp 和fy 的模型效果优于无效模型。似然比检验χ2

=10.638,P =0.005<0.01,

Logistic 回归有统计学意义。

由图11-20可得,肥胖fp 、服药fy 的Wald 2

x =4.610、3.861,P =0.032、0.049,均<0.05,应当留在方程中。以fp 1、fp 2及fy 1、fy 2分别表示对照1、2与病例的肥胖及服药值之差,Logistic 回归方程为

P (y =1|配伍1人得病))

1.590824.1ex p()1.590824.1ex p(11

2211fy fp fy fp --+--+=

肥胖者的子宫内膜癌危险性,是不肥胖的6.196倍。口服避孕药雌激素的子宫内膜癌危险性,是不服药的4.902倍。

11.5 LD 50的计算

使一组试验动物死亡一半的药物剂量称为半数致死量 LD 50。SPSS 中选择Analyze →Regression →Probit (Probit 回归)可以完成半数致死量 LD 50计算,Probit 回归分析是概

率单位(Probability Unit )回归分析。半数有效量 ED 50可以类似计算。

例11-7 为研究厚朴注射液对小白鼠的毒性作用,测试了不同剂量组的死亡情况,结果见表11-7,试求该注射液的LD 50及其95%的可信区间。

解 建立如图11-21所示的数据文件。

选择菜单Analyze →Regression →Probit ,弹出Probit Analyze 对话框,见图11-22,将变量dead 送入Response Frequency 框内,将变量f 送入Total Observed 框内,将变量c 送入Covariate(s)框内,单击下面Transform 对应的下拉菜单箭头,选Log base10,单击OK 。

图11-22 Probit Analyze 对话框

主要输出结果见图11-23,厚朴注射液的半数致死量LD 50为5.512,其95%的可信区间为(4.538,6.939)。还输出了剂量对数与概率单位之间的关系图,详情这里省略。

本章小结

在作回归分析时,如果因变量是分类变量,要用Logistic 回归模型。分类变量又分二分类、有序多分类、无序多分类3种类型,不同类型分类变量的Logistic 回归模型也不同。本章还介绍了条件Logistic 回归分析和利用Probit 回归分析求LD 50的方法。

在进行Logistic 回归分析时,弄清是哪种类型Logistic 回归分析以及有关的统计学理论识,直接关系到SPSS 计算结果的解释与分析。详细的Logistic 回归分析统计学理论知识可以参看相关的统计学书籍。

表11-7 厚朴注射液对小白鼠的毒性作用

图11-21 例11-7数据文件

图11-23 例11-7输出结果

习题11

习题11-1研究性别、疾病的严重程度对某病疗效的影响,得数据如表11-8。试作Logistic回归分析。

表11-8 性别及疾病严重程度对某病疗效的影响

疗效

性别疾病严重程度有效例数(C=1)无效例数(C=0)合计

男(A=1)严重(B=1)11415

不严重(B=0)10818

女(A=0)严重(B=1)9919

不严重(B=0)62127习题11-2某研究人员收集26例肾癌患者资料,如表11-9所示。其中,y=1表示肾癌细胞转移,y=0表示肾癌细胞没有转移,x1表示肾癌细胞血管内皮生长因子的四个等级,x2表示肾癌细胞核组织的四个等级。试建立y与x1、x2的Logistic回归方程。

表11-9 26例肾癌患者资料

y 0 0 0 1 1 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 1 0 1 0 0 1 x1 2 1 2 3 3 1 1 1 1 3 3 2 1 1 3 1 3 1 1 3 2 2 3 2 1 3 x2 2 1 2 4 3 2 1 3 1 2 4 4 1 2 3 2 3 2 2 4 4 2 3 2 4 4 习题11-3《山西医药杂志》2004年4月第33卷第4期,自制红花甘草散外敷治疗肌肉注射硬结的疗效观察,数据见表11-10。分析红花甘草散对不同硬结的治疗效果有无不同。

表11-10红花甘草散外敷肌肉注射部位硬结效果比较

疗效

硬结分度

I度II度III度

显效30 19 3 好转12 16 16 无效 1 1 2

习题11-4为了研究生活方式和胃癌的关系,收集了一批病人和对照组的有关资料,表11-11是其中10对样本和3个危险因子的数据,x1表示蛋白质摄入量,取值为0、1、2、3;x2表示不良饮食习惯,取值为0、1、2、3;x3表示精神状态,取值为0、1、2。试完成下列计算:①根据病例和对照I的数据,完成1:1配比的Logistic回归分析;②根据病例、对照I和对照II的数据,完成1:2配比的Logistic回归分析。

表11-11 生活方式和胃癌关系的研究资料

配对编号

病例对照I对照II

x1x2x3x1x2x3x1x2x3

1130101001

2031130121

3012020011

4120100100

5111121111

6022200110

7111000100

8112000000

9332220120

10222000001习题11-5为研究某化学物质对小鼠的急性毒性大小,测试了不同剂量组的死亡情况,数据见表11-12。求该化学物质的LD50及其95%的可信区间。

表11-12 某化学物质的急性毒性研究

浓度1000120014001600180020002200240026002800每组小鼠数20202020202020202020

死亡小鼠数124791213151718

SPSS实验8-二项Logistic回归分析

SPSS作业8:二项Logistic回归分析 为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。数据项包括是否购买,性别,年龄和收入水平。这里采用Logistic回归的方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。 (一)基本操作: (1)选择菜单Analyz e-Regression-Binary Logistic; (2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下: 分析:上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。可以看到,对收入生成了两个虚拟变量名为Income(1)和Income(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名为Gedder(1),表示是否女,取值为0

时表示为男。 消费的二项Logistic分析结果(二)(强制进入策略) 分析:上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。可以看到:269人中实际没购买且模型预测正确,正确率为100%;162人中实际购买了但模型均预测错误,正确率为0%。模型总的预测正确率为62.4%。 消费的二项Logistic分析结果(三)(强制进入策略)

分析:上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误差,Wald检验统计量的观测值,自由度,Wald检验统计量的概率p值,发生比。由于此时模型中未包含任何解释变量,因此该表没有实际意义。 分析:上表显示了待进入方程的各个变量的情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。可以看到,如果下一步Age 进入方程,则Score检验统计量的观测值为1.268,概率p值为0.26。如果显著性水平a为0.05,由于Age的概率p值大于显著性水平a,所以是不能进入方程的。但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。

计量经济学重要简答题

计量经济学重点简答题 1.简述计量经济学与经济学、统计学、数理统计学学科间得关系。 答:计量经济学就是经济理论、统计学与数学得综合.经济学着重经济现象得定性研究,计量经济学着重于定量方面得研究。统计学就是关于如何收集、整理与分析数据得科学,而计量经济学则利用经济统计所提供得数据来估计经济变量之间得数量关系并加以验证。数理统计学作为一门数学学科,可以应用于经济领域,也可以应用于其她领域;计量经济学则仅限于经济领域。计量经济模型建立得过程,就是综合应用理论、统计与数学方法得过程,计量经济学就是经济理论、统计学与数学三者得统一。 2、计量经济模型有哪些应用? 答:①结构分析②经济预测③政策评价④检验与发展经济理论 3、简述建立与应用计量经济模型得主要步骤。 答:模型设定估计参数模型检验模型应用 或1)经济理论或假说得陈述2) 收集数据3)建立数理经济学模型4)建立经济计量模型5)模型系数估计与假设检验6)模型得选择7)理论假说得选择8)经济学应用 4、对计量经济模型得检验应从几个方面入手? 答:①经济意义检验②统计推断检验③计量经济学检验④模型预测检验 5、计量经济学应用得数据就是怎样进行分类得? 答:时间序列数据截面数据面板数据虚拟变量数据 6、解释变量与被解释变量,内生变量与外生变量 被解释变量就是模型要研究得对象,被称为“因变量”,就是变动得结果。 解释变量就是说明被解释变量变动得原因,被称为“自变量”,就是变动得原因. 内生变量就是其数值由模型所决定得变量,就是模型求解得结果。 外生变量就是其数值由模型以外决定得变量。 7、计量经济学得含义 计量经济学就是以经济理论与经济数据得事实为依据,运用数学、统计学得方法,通过建立数学模型来研究经济数量关系与规律得一门经济学科。 8、在计量经济模型中,为什么会存在随机误差项? 答:随机误差项就是计量经济模型中不可缺少得一部分. 产生随机误差项得原因有以下几个方面:①模型中被忽略掉得影响因素造成得误差;②模型关系认定不准确造成得误差;③变量得测量误差;④随机因素. 9.对于多元线性回归模型,为什么在进行了总体显著性F检验之后,还要对每个回归系数进行就是否为0得t检验? 答:多元线性回归模型得总体显著性F检验就是检验模型中全部解释变量对被解释变量得共同影响就是否显著。通过了此F检验,就可以说模型中得全部解释变量对被解释变量得共同影响就是显著得,但却不能就此判定模型中得每一个解释变量对被解释变量得影响都就是显著得。因此还需要就每个解释变量对被解释变量得影响就是否显著进行检验,即进行t 检验. 10、古典线性回归模型具有哪些基本假定。 答:1 随机误差项与解释变量不相关。2随机误差项得期望或均值为零。3随机误差项具有同方差,即每个随机误差项得方差为一个相等得常数。4 两个随机误差项之间不相关,即随机误差项无自相关。 11、在多元线性回归分析中,为什么用修正得决定系数衡量估计模型对样本观测值得拟合优度? 答:因为人们发现随着模型中解释变量得增多,多重决定系数得值往往会变大,从而增加了模

Logistic回归分析简介

Logistic回归分析简介 Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。1.应用范围: ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2.Logistic回归的分类: ①按因变量的资料类型分: 二分类 多分类 其中二分较为常用 ②按研究方法分: 条件Logistic回归 非条件Logistic回归 两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍 研究。 3.Logistic回归的应用条件是: ①独立性。各观测对象间是相互独立的; ②LogitP与自变量是线性关系; ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍 为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多; ④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观 察时间的影响(建议用Poisson回归)。 4.拟和logistic回归方程的步骤: ①对每一个变量进行量化,并进行单因素分析; ②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等 级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数 法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离 散变量。 ③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级 变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量 变换; ④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或 0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型 程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变 量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计 量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选 择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald 统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔 除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果 分析结果如下: 1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个

1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约) 2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为 -1.026,标准误差为:0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小, B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著

1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型 表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下: (公式中(Xi- Xˉ) 少了一个平方) 下面来举例说明这个计算过程:(“年龄”自变量的得分为例) 从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489 那么: yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以:∑(Xi-xˉ)2 = 30074.9979

统计学简答题整理

统计学简答题整理 第一章P11 1.获取直接统计数据的渠道主要有哪些?及区别在于? 普查、抽样调查 普查是为某一特定目的,专门组织的一次性全面调查。这是一种摸清国情、国力的重要调查方法。花费的时间、人力、财力和物力都较大,间隔的时间较长。而两次普查之间的年份以抽样调查方法获得连续的统计数据。 抽样调查是统计调查中应用最广、最为重要的调查方法,它是通过随机样本对总体数量规律性进行推断的调查研究方法。存在着由样本推断总体产生的抽样误差,但统计方法可以估计出误差的大小进一步控制误差;节省人力、财力、物力,又能保证实效性 2.简要说明抽样误差和非抽样误差。 非抽样误差是由于调查过程中各有关环节工作失误造成的。(它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差,还有一种人为干扰造成的误差即有意瞒报或低报数据等)。非抽样误差在普查、抽样调查中都有可能发生,但可以避免。 抽样误差是利用样本推断总体时产生的误差。(由于样本只是总体的一部分,用样本的信息去推断总体,或多或少总会存在误差,因而抽样误差对任何一个随机样本来讲都是不可避免的。但可计量、可控制)。抽样误差与样本量的平方根成反比关系。 第二章P51

1.统计的计量尺度 ①列名尺度(定类尺度):是按照某一品质标志将总体分组之后,对属性相同的单位进行计量的方法。各组之间的关系是并列的,没有大小、高低、先后之别。 ②顺序尺度(定序尺度):是按照某一品质标志将总体分组,对等级相同的单位进行计量的方法。各组之间的关系是有顺序的,可以进行排序。 ③间隔尺度(也称定距尺度):是按某一数量标志将总体分组,对相同数量或相同数量范围的单位或其标志值进行计量的方法。其特点是不仅可以进行排序,还可以计算不同数值之间的绝对差距。 ④比例尺度(也称定比尺度):是类似于间隔尺度,又高于间隔尺度的计量方法。其特点是不仅可计算数值的绝对差异,还可以计算数值的相对差异。 2.简述统计分组的概念和作用。 概念:统计分组是根据统计研究目的,选择一定的分组标志,将总体划分为若干组的统计方法。其目的是使组与组有明显差别,同一组中具有相对的同质性。(例:人口按性别、年龄、民族、职业分组;企业按规模分为大型、中型和小型。) 作用:1.划分社会经济现象的类型 2.反映总体的内部结构 3.分析现象之间的依存关系 3.简述众数、中位数和均值的特点与应用场合。 众数是总体中出现次数最多的标志值。反映了标志值分布的集中趋势,是一种由位置决定的平均数。可以没有众数也可有两个。

计量经济学简答题及答案精编版

计量经济学简答题及答案 1、比较普通最小二乘法、加权最小二乘法和广义最小二乘法的异同。 答:普通最小二乘法的思想是使样本回归函数尽可能好的拟合样本数据,反映在 图上就是是样本点偏离样本回归线的距离总体上最小,即残差平方和最小∑=n i i e 12min 。只有在满足了线性回归模型的古典假设时候,采用OLS 才能保证 参数估计结果的可靠性。 在不满足基本假设时,如出现异方差,就不能采用OLS 。加权最小二乘法是对原 模型加权,对较小残差平方和2i e 赋予较大的权重,对较大2i e 赋予较小的权重,消除异方差,然后在采用OLS 估计其参数。 在出现序列相关时,可以采用广义最小二乘法,这是最具有普遍意义的最小二乘 法。 最小二乘法是加权最小二乘法的特例,普通最小二乘法和加权最小二乘法是广义 最小二乘法的特列。 6、虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况? 答: 在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于 定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。 7、联立方程计量经济学模型中结构式方程的结构参数为什么不能直接应用OLS 估计? 答:主要的原因有三:第一,结构方程解释变量中的内生解释变量是随机解释变 量,不能直接用OLS 来估计;第二,在估计联立方程系统中某一个随机方程参数时,需要考虑没有包含在该方程中的变量的数据信息,而单方程的OLS 估计做不到这一点;第三,联立方程计量经济学模型系统中每个随机方程之间往往存在某种相关性,表现于不同方程随机干扰项之间,如果采用单方程方法估计某一个方程,是不可能考虑这种相关性的,造成信息的损失。 2、计量经济模型有哪些应用。 答:①结构分析,即是利用模型对经济变量之间的相互关系做出研究,分析当其 他条件不变时,模型中的解释变量发生一定的变动对被解释变量的影响程度。②经济预测,即是利用建立起来的计量经济模型对被解释变量的未来值做出预测估计或推算。③政策评价,对不同的政策方案可能产生的后果进行评价对比,从中做出选择的过程。④检验和发展经济理论,计量经济模型可用来检验经济理论的正确性,并揭示经济活动所遵循的经济规律。 6、简述建立与应用计量经济模型的主要步骤。 答:一般分为5个步骤:①根据经济理论建立计量经济模型;②样本数据的收集; ③估计参数;④模型的检验;⑤计量经济模型的应用。 7、对计量经济模型的检验应从几个方面入手。 答:①经济意义检验;②统计准则检验;③计量经济学准则检验;④模型预测检 验。

logistic回归分析案例

1. 数据制备(栅格数据) (1) 宝塔区基底图层.tif (2) 居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。 在 environment settings ------ p rocessing extent ------ snap raster (选中基底图层),保证栅格数据 像元无偏移,且行列的数量一致。 化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块,获得logistic 回归分析的数据集。 (1) 将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式,并将文件 放在CLUE-S 模型所在的文件夹中。 (2) 打开FileCo nvert V2软件,按下图勾选,填写"file list "内容,点击start con version , 3 田F1 曰 It:. (3)栅格数据转为 ASCII 码,生成txt 文档。 匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。 祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*£LD|i4I# ■ Q电兀列心£i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬£ 淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂£]T (2)logistic回归分析 按图设置参数因变量、自变量;由于x3属于分类变量,点击分类按钮,按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl¥ g: ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■;? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l£j v-IIHH M4Q J0W PW回沐神to 型 rwa: wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞:幽 11013 1 Qm Sft?t 121JJ V s? 014*」; 11 H?iKa; H013 5 *旳 ti a IM■ KK MS V;941 ti Q144T f 7W filwvjcfic OH

计量经济学名词解释和简答题

计量经济学 第一部分:名次解释 第一章 1、模型:对现实的描述和模拟。 2、广义计量经济学:利用经济理论、统计学和数学定量研究经济现象的经济计量方法的统称,包括回归分析方法、投入产出分析方法、时间序列分析方法等。 3、狭义计量经济学:以揭示经济现象中的因果关系为目的,在数学上主要应用回归分析方法。 第二章 1、总体回归函数:指在给定Xi 下Y 分布的总体均值与Xi 所形成的函数关系(或者说总体被解释变量的条件期望表示为解释变量的某种函数)。 2、样本回归函数:指从总体中抽出的关于Y ,X 的若干组值形成的样本所建立的回归函数。 3、随机的总体回归函数:含有随机干扰项的总体回归函数(是相对于条件期望形式而言的)。 4、线性回归模型:既指对变量是线性的,也指对参数β为线性的,即解释变量与参数β只以他们的1次方出现。 5、随机干扰项:即随机误差项,是一个随机变量,是针对总体回归函数而言的。 6、残差项:是一随机变量,是针对样本回归函数而言的。 7、条件期望:即条件均值,指X 取特定值Xi 时Y 的期望值。 8、回归系数:回归模型中βo ,β1等未知但却是固定的参数。 9、回归系数的估计量:指用?μ01 ,ββ等表示的用已知样本提供的信息所估计出来总体未知参数的结果。 10、最小二乘法:又称最小平方法,指根据使估计的剩余平方和最小的原则确定样本回归函数的方法。 11、最大似然法:又称最大或然法,指用生产该样本概率最大的原则去确定样本回归函数的方法。 12、估计量的标准差:度量一个变量变化大小的测量值。 13、总离差平方和:用TSS 表示,用以度量被解释变量的总变动。 14、回归平方和:用ESS 表示:度量由解释变量变化引起的被解释变量的变化部分。 15、残差平方和:用RSS 表示:度量实际值与拟合值之间的差异,是由除解释变量以外的其他因素引起的被解释变量变化的部分。 16、协方差:用Cov (X ,Y )表示,度量X,Y 两个变量关联程度的统计量。 17、拟合优度检验:检验模型对样本观测值的拟合程度,用2R 表示,该值越接近1,模型对样本观测值拟合得越好。 18、t 检验时针对每个解释变量进行的显著性检验,即构造一个t 统计量,如果该统计量的值落在置信区间外,就拒绝原假设。 19、相关分析:研究随机变量间的相关形式 20、回归分析:研究一个变量关于另一个(些)变量的依赖关系的计算方法和理论。 第三章 1、多元线性回归模型:在现实经济活动中往往存在一个变量受到其他多个变量的影响的现象,表现为在线性回归模型中有多个解释变量,这样的模型成为多元线性回归模型,多元指多个变量。

回归分析简答题演示教学

1、作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的 吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。 多元线性回归分析的线性关系指的是随机变量间的关系,因变量y与回归系数B i 间存在线性关系。 多元线性回归的条件是: (1)各自变量间不存在多重共线性; (2)各自变量与残差独立; (3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。 2、回归分析的基本思想与步骤基本思想: 所谓回归分析,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。 步骤: 1)确定回归方程中的解释变量和被解释变量。 2)确定回归模型 根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。 3)建立回归方程 根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。 4)对回归方程进行各种检验 由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。 5)利用回归方程进行预测 3、多重共线性问题、不良后果、解决方法 多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系,即 存在不全为0的p个常数C i,C2,…,Cp使得C i X ii+C2X i2 +…+CpXip ~0,i=1,2,…n

统计学简答题整理

统计学简答题 第一章 1.统计的含义和本质是什么? 统计一词包含三个含义:统计数据、统计活动和统计学。 统计的本质就是关于“为统计,统计什么和如统计”的思想,就是围绕研究目的和任务,运用科学的统计法,去获取真实客观的有关统计数据,做出必要的统计分析,以了解和认识事物的真相。 2.什么是统计学?有哪些性质? 统计学是关于如收集、整理和分析统计数据的学科。 统计学就其研究对象而言,具有数量性、总体性和差异性的特点;就其学科畴而言,具有法型、层次性和通用性的特点;就其研究式而言,具有描述性和推断性的特点。 3.总体、样本、个体三者的关系如?试举例说明。 概念:总体就是统计研究的客观对象的全体,是由所有具有某种共同性质的事物所组成的集合体,有时也称母体。样本就是从总体中抽取一部分个体所组成的集合,也称子样。组成总体的每个个别事物就称为个体,也称总体单位。 总体与个体的关系: 1.总体的容量随着个体数的增减可变大变小。 2.随着研究目的的不同,总体中的个体可以发生变化。 3.随着研究围的变化,总体和个体的角色可以变换。 样本和总体的关系: 1.总体是所要研究的对象,而样本则是所要观测的对象,样本是总体的代表和缩影。 2.样本是用来推断总体的。 3.总体和样本的角色是可以改变的。 4.如理解标志、指标、变量三者的含义?试举例说明。 标志是用于描述或体现个性特征的名称,如某人是男性,教师。 统计指标简称指标是反映现象总体数量特征的概念以及数值,如09年全国人口13亿。 从狭义上看变量是指可变的数量标志,从广义上看变量不仅指可变数量标志也包括可变的品质标志,因此可变标志就是变量。 5.什么是统计指标体系?有哪些表现形式?试举例说明。 统计指标体系是由一系列统计指标构成,但并不是单个指标的简单组合,而是各个指标之间相互联系,相互制约的。 表现形式:1.数学等式关系 2.相互补充关系 3.相关关系 4.原因、条件、结果关系 第二章 1.概率抽样和非概率抽样有什么本质区别?试举例说明。

图文举例详细讲解Logistic曲线的回归分析

Logistic曲线的回归分析 例某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如 表1.所示。用转化为线性方程的方法估计其logistic曲线预测模型。设最大值k为300(cm)。 表1.玉米高度与时间(生长周期)的关系 时间(生长周期)高度/cm时间(生长周期)高度/cm时间(生长周期)高度/cm 10.671212.752297.4620.851316.5523112.7 31.281420.124135.141.751527.3525153.652.271632.5526160.362.751737.55271 67.173.691844.7528174.984.711953.3829177.996.362071.6130180.2 107.732183.8931180.8119.91 3.1基本绘图操作 在Excel中输入时间x与高度y的数据。 选择插入->图表 图87 点击图表,选择“标准类型”中的xy散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。 图89

点击下一步。 图90 分别点击标题、网格线、图例进行修改,然后点击下一步。 图91 点击完成。 图92 右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93 观察散点图,其呈S型曲线,符合logistic曲线。采用转化为线性方程的方法求解模型。 3.2Logistic曲线方程及线性化 Logistic曲线方程为: y 1 k at me(12) (1)将数据线性化及成图 转化为线性方程为: y'aat 01 (13 ) 其中,y'ln(k/y1),a 0lnm,a1a 具体操作为: 向excel表格中输入y’数据。

应用回归分析测试题

一 选择题 1、对于一元线性回归01+(1,2,,)i i i y x i n ββε=+= ,()0i E ε=,2 var()i εσ=, cov(,)0(i j)i j εε=≠,下列说法错误的( BC ) (A) 01ββ,的最小二乘估计01 ??ββ,都是无偏估计; (B) 01ββ,的最小二乘估计01??ββ,对12,,n y y y ,是线性的; (C) 01ββ,的最小二乘估计01 ??ββ,之间是相关的; (D) 若误差服从正态分布,01ββ,的最小二乘估计和极大似然估计是不一样的. 2、下列说法错误的是 ( B ) (A)强影响点不一定是异常值; (B)在多元回归中,回归系数显著性的t 检验与回归方程显著性的F 检验是等价的; (C)一般情况下,一个定性变量有k 类可能的取值时,需要引入k-1个0-1型自变量; (D)异常值的识别与特定的模型有关. 3、在对两个变量x ,y 进行线性回归分析时,有下列步骤: ①对所求出的回归直线方程作出解释; ②收集数据{(x ,y )},i=1,2,,n i i ; ③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图。 如果根据可行性要求能够作出变量,x,y 具有线性相关结论,则在下列操作中正确的是( D ) A .①②⑤③④ B .③②④⑤① C .②④③①⑤ D .②⑤④③① 4、下列说法中正确的是(B ) A.任何两个变量都具有相关关系 ; B.人的知识与其年龄具有相关关系 ; C .散点图中的各点是分散的没有规律 ; D .根据散点图求得的回归直线方程都是有意义的。 5、下面的各图中,散点图与相关系数r 不符合的是( B )

(整理)多项分类Logistic回归分析的功能与意义1.

多项分类Logistic回归分析的功能与意义 我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。 例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。

“年龄”使之进入“协变量”列表框。

还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示: 上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic 回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下: 1:设置随机抽样的随机种子,如下图所示:

选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、 2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面: 在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值 如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0" 为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件” 点击“如果”按钮,进入如下界面:

应用回归分析简答题及答案

应用回归分析简答题及答案 4.为什么要对回归模型进行检验? 答:当模型的未知参数估计出来后,就初步建立了一个回归模型。建立回归模型的目的是应用他来研究经济问题,但如果马上就用这个模型去做预测、控制和分析,显然是不够慎重的。因为这个模型是否真正揭示了被解释变量与解释变量之间的关系,必须通过对模型的检验才能决定。 5.讨论样本容量n与自变量个数p的关系,他们对模型的参数估计有何影响? 答:在多元线性回归模型中,样本容量n与自变量个数p的关系是:n>p。如果n<=p对模型的参数估计会带来严重的影响。 因为:(1)在多元线性回归模型中,有p+1个待估参数B,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。 (2)解释变量X是确定性变量,要求rank(X)=p+1

X是一个满秩矩阵。 7.如何正确理解回归方程显著性检验拒绝Ho,接受Ho? 答:(1)一般情况下,当Ho:B1=0被接受时,表明y的取值倾向不随x的值按线性关系变化,这种状况的原因可能是变量y与x之间的相关关系不显著,也可能虽然变量y与x之间的相关关系显著,但这种相关关系不是线性的而是非线性的。 (2)当Ho:B1=0被拒绝时,没有其他信息,只能认为因变量y对自变量x是有效的,但并没有说明回归的有效程度,不能断言y与x之间就一定是线性相关关系,而不是曲线关系或其他的关系。 8.一个回归方程的复相关系数R=0.99,样本决定系数R^2=0.9801,我们能断定这个回归方程就很理想吗? 答:1.在样本容量较少,变两个数较大时,决定系数的值容易接近1,而此时可能F检验或者关于回归系数的t检验,所建立的回归方程都没能通过。 2.样本决定系数和复相关系数接近1只能说明Y 与自变量X1,X2,…,Xp整体上的线性关系成立,而不能判断回归方程和每个自变量都是显著的,还需

SPSS与社会统计学逻辑回归分析Logistic课程

SPSS与社会统计学逻辑回归分析Logistic课程作业二[1]陈昱,陈银蓉,马文博. 基于Logistic模型的水库移民安置区居民土地流转意愿分析——四川、湖南、湖北移民安置区的调查[J]. 资源科学,2011,06:1178-1185. 一、变量赋值 1.被解释变量用0表示不愿意流转,1表示愿意流转,有意愿上的状态表示效果。 2.性别分别用1和2表示男女,男女不存在有没有状态的表征,所以用1、2赋值非常合适;它的预计影响方向为负,是基于学者张林秀、刘承芳等认为:由于农村男性外出打工的几率高于女性,女性更愿意在家耕种土地,这就可能导致女性不愿意转出土地的基础上设定的。 3.教育程度越高赋值越高,且预测影响为正,这个也是在文章前面定量分析的时候引用学者李实的观点说明赋值的理由。 4.职业类型中,兼业化程度越高赋值越高,且为正向。从家庭收入对农业收入的依赖性原理角度来看这个不难理解。 5.其它变量的赋值依据实际情况初步判断也不能理解其赋值的缘由。然而对于“是否为村干部”这一变量来看,预测的趋向是:是村干部则不愿

意流转,前面的分析并没有说明为什么会是这样。虽然这知识一种预判,但是若能够给出预判的一丁点理由就更好了。 二、系数解读 1. 标准化系数中,x1,x3,x7,x9,x11,x12系数为付,意味着性 别是男、与市中心距离越近、家庭人口和劳动力人数越少、农业 收入占比越少、认为土地经营权权属则土地流转的意愿越强; 2. 其中X3(与市中心距离),x9(劳动力人数)影响系数绝对值较大, 分别为0.815,0.322。在显著性检验方面,x3、x9、x11分别通过 了15%、1%、5%的显著性检验。也就是说,土地不愿意流转与 劳动力人数多有显著相关性,与农业收入占比高有较显著的相 关,与市中心距离近相关性不显著。 3. 系数为正的变量中,影响系数均不高,但能通过显著性检验的

统计学课后习题答案第七章 相关分析与回归分析

第七章相关分析与回归分析 一、单项选择题 1.相关分析是研究变量之间的 A.数量关系 B.变动关系 C.因果关系 D.相互关系的密切程度 2.在相关分析中要求相关的两个变量 A.都是随机变量 B.自变量是随机变量 C.都不是随机变量 D.因变量是随机变量 3.下列现象之间的关系哪一个属于相关关系? A.播种量与粮食收获量之间关系 B.圆半径与圆周长之间关系 C.圆半径与圆面积之间关系 D.单位产品成本与总成本之间关系 4.正相关的特点是 A.两个变量之间的变化方向相反 B.两个变量一增一减 C.两个变量之间的变化方向一致 D.两个变量一减一增 5.相关关系的主要特点是两个变量之间 A.存在着确定的依存关系 B.存在着不完全确定的关系 C.存在着严重的依存关系 D.存在着严格的对应关系 6.当自变量变化时, 因变量也相应地随之等量变化,则两个变量 之间存在着 A.直线相关关系 B.负相关关系 C.曲线相关关系 D.正相关关系 7.当变量X值增加时,变量Y值都随之下降,则变量X和Y之间存 在着 A.正相关关系 B.直线相关关系 C.负相关关系 D.曲线相关关系 8.当变量X值增加时,变量Y值都随之增加,则变量X和Y之间存 在着 A.直线相关关系 B.负相关关系 C.曲线相关关系 D.正相关关系 9.判定现象之间相关关系密切程度的最主要方法是 A.对现象进行定性分析 B.计算相关系数 C.编制相关表 D.绘制相关图 10.相关分析对资料的要求是 A.自变量不是随机的,因变量是随机的 B.两个变量均不是随机的 C.自变量是随机的,因变量不是随机的 D.两个变量均为随机的 11.相关系数 A.既适用于直线相关,又适用于曲线相关 B.只适用于直线相关 C.既不适用于直线相关,又不适用于曲线相关 D.只适用于曲线相关 12.两个变量之间的相关关系称为

统计学简答题答案

1、什么是统计学,有哪些特点? 统计学是收集、整理、分析、解释数据并从数据中得到结论的学科。 特点:客观性~~相关性~~实用性~~科学性~~严谨性~~逻辑性~~~ 2、何谓标志,按能否用数量表示可以分为哪两种类型,分别举例说明 标志是指说明总体单位属性或特征的名称。可以分为数量标志和质量标志 品质标志:说明总体单位属性特征的名称,用文字描述。Ex:性别,名族,工种,籍贯数量标志:说明总体单位数量特征的名称,用数量表示。数量标志的具体表现称标志值。 Ex:工人的年龄,工资,工龄 3、什么是离散型变量,连续性变量?举例说明 变量:可变的数量标志和指标; 离散型变量:指变量的数值只能以计数的方法取得,(变量值只能取整数); 连续型变量:指变量的取值连续不断,(变量值能取小数)。 4、简述品质标志和数量标志的区别,并举例说明。 区别:数量标志说明的是总体的数量特征,而品质标志说明的是总体的属性特征。 5、什么是数量指标和质量指标?二者有何关系? 统计指标:反映总体数量特征的科学概念和具体数值。 注意:从理论上讲,一个完整的统计指标由两部分构成:指标名称+指标数值 例如:某地区2009年完成利税总额(指标名称)为1500(指标数值)亿元。 数量指标:用来反映现象的总规模、总水平、或工作总量的指标。其数值大小随总体的研究范围的大小而增减。 质量指标:反映客观现象的劳动效果或工作质量等事物内部数量关系的指标,其数值的大小与总体的研究范围大小无直接联系。 6、统计标志和统计指标有和联系与区别? 区别:1、标志是反映总体单位特征;指标反映总体特征。 2、指标都能用数量表示,标志只有数量标志能用数量表示; 3、标志是一个理论概念,实际应用中只有指标。 联系:1、标志与指标可以相互转化,随研究目的的转化而改变; 2、指标值一般是标志值汇总来的; 3、标志的名称常常就是指标名称。 7、制定一份完整的统计调查方案,应包括哪些内容? 1)明确调查的目的和任务 2)确定调查的对象和调查单位、 3)确定带调查项目、设计调查表或问卷 4)确定调查时间、调查地点和调查方式方法 5)制定调查的组织实施计划 8、举例说明重点调查的概念和特点 重点调查:是在调查对象范围内部选择部分重点调查单位进行的调查。 特点:调查单位少、适用于调查对象的标志值比较集中于某些单位的场合、重点调查的调查方式主要采取专门调查的组织形式(一种是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位进行调查。);有点在于花费较少的人力物力和时间就可以获得总体的基本情况资料。 9、简述重点调查、典型调查、抽样调查的联系与区别P31 抽样调查是一种非全面调查,它是按照随机的原则,从总体中抽取一部分单位作为样本来进行观测研究,以抽样样本的指标去推算总体指标的一种调查。

第十二章+Logistic回归分析

第十二章 Logistic 回归分析 一、Logistic 回归概述: Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施;通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。 二、Logistic 回归的分类及资料类型: 第一节 非条件Logistic 回归分析 一、Logistic 回归模型: Logistic 回归模型: logit (P )= ln( p p -1) = β0+β1χ1 + … +βn χn 二、回归系数的估计(参数估计): 回归模型的参数估计:Logistic 回归模型的参数估计通常利用最大似然估计法。 三、假设检验: 1.Logistic 回归方程的检验: ·检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。 ·检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。上述三种方法中,似然比检验最可靠。 ·似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G=-2ln(L)(又称Deviance )。无效假设H 0:β=0。当H 0成立时,检验统计量G 近似服从自由度为N-P-1的X 2分布。当G 大于临界值时,接受H 1,拒绝无效假设,认为从整体上看适合作Logistic 回归分析,回归方程成立。 2.Logistic 回归系数的检验: ·为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。 ) (11011011011011)](exp[11 )exp(1)exp(p p X X p p p p p p e X X X X X X p ββββββββββββ+++-+= +++-+=+++++++=

如何用SPSS做logistic回归分析

如何用spss17.0进行二元和多元logistic回归分析 一、二元logistic回归分析 二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。 下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic回归分析。 (一)数据准备和SPSS选项设置 第一步,原始数据的转化:如图1-1所示,其中脑梗塞可以分为ICAS、ECAS和NCAS三种,但现在我们仅考虑性别和年龄与ICAS的关系,因此将分组数据ICAS、ECAS和NCAS转化为1、0分类,是ICAS赋值为1,否赋值为0。年龄为数值变量,可直接输入到spss中,而性别需要转化为(1、0)分类变量输入到spss当中,假设男性为1,女性为0,但在后续分析中系统会将1,0置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。 图1-1 第二步:打开“二值Logistic 回归分析”对话框: 沿着主菜单的“分析(Analyze)→回归(Regression)→二元logistic (Binary Logistic)”的路径(图1-2)打开二值Logistic 回归分析选项框(图1-3)。

如图1-3左侧对话框中有许多变量,但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压,有无糖尿病等(P<0.05),因此我们这里选择以性别和年龄为例进行分析。

在图1-3中,因为我们要分析性别和年龄与ICAS的相关程度,因此将ICAS选入因变量(Dependent)中,而将性别和年龄选入协变量(Covariates)框中,在协变量下方的“方法(Method)”一栏中,共有七个选项。采用第一种方法,即系统默认的强迫回归方法(进入“Enter”)。 接下来我们将对分类(Categorical),保存(Save),选项(Options)按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中,因为性别为二分类变量,因此将其选入分类协变量中,参考类别为在分析中是以最小数值“0(第一个)”作为参考,还是将最大数值“1(最后一个)”作为参考,这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项,其中“exp(B)的CI(X)”一定要勾选,这个就是输出的OR和CI值,后面的95%为系统默认,不需要更改。

相关主题