搜档网
当前位置:搜档网 › 广义线性模型()

广义线性模型()

广义线性模型()
广义线性模型()

广义线性模型

广义线性模型*(Nelder和Wedderburn,1972)除了正态分布,也允许反应分布,以及模型结构中的一定程度的非线性。GLM具有基本结构

g(μi)=X iβ,

其中μi≡E(Yi),g是光滑单调'链接函数',Xi是模型矩阵的第i行,X和β是未知参数的向量。此外,GLM通常会做出Yi是独立的和Yi服从一些指数族分布的假设。

指数族分布包括许多对实际建模有用的分布,如泊松分布,二项分布,伽马分布和正态分布。GLM的综合参考文献是McCullagh和Nelder(1989),而Dobson(2001)提供了一个全面的介绍。

因为广义线性模型是以“线性预测器”Xβ的形式详细说明的,所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外,基本模型公式与线性模型公式基本相同。当然,如果恒等函数被选择作为链接以及正态分布,那么普通线性模型将作为特例被恢复。

然而,泛化是以某种成本为代价的:现在的模型拟合必须要迭代完成,而且用于推理的分布结果是近似的,并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前,请考虑几个简单的例子。

μi=cexp(bt i),

例1:在疾病流行的早期阶段,新病例的发生率通常会随着时间以指数方式增加。因此,如果μi是第ti天的新病例的预期数量,则该形式的模型为

请注意,“广义”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。

可能是合适的,其中c和b是未知参数。通过使用对数链路,这样的模型可以变成GLM形式

log(μi)=log(c)+bt i=β0+t iβ1

(根据β0=logc和β1=b的定义)。请注意,模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量,因为这是一个计数,所以泊松分布可能是一个合理的可以尝试的分布。因此,针对这种情况的GLM使用泊松反应分布,对数链路和线性预测器β0+tiβ1。

,

例2:狩猎动物捕获猎物的速度yi往往随着猎物密度xi的增加而增加,但最终会趋于平衡,当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是

其中a是未知参数,表示最大捕获率,h是未知参数,表示捕获率为最大速率一半时的猎物密度。很显然,这个模型在其参数中是非线性的,但是通过使用倒数链路,右边的参数可以是线性的:

(这里β0≡1/a和β1≡h/a)。在这种情况下,猎物捕获率的标准差可能与平均速率大致成比例,建议使用Gamma分布作为反应,并完成模型设定。

们不限于示例的简单直线形式,但可以有对于线性模型可能具有的线性预测器的任何结构。

2.1GLMs的理论

未完成。

fθ(y)=exp[{yθ?b(θ)}/a(φ)+c(y,φ)],

GLM中的反应变量可以来自指数族的任何分布。如果一个分布的概率密度函数或概率质量函数可以写成,则该分布属于指数族分布

其中b,a和c是任意函数,φ是任意的“尺度”参数,并且θ被称为分布的“典范参数”(在GLM上下文中,θ将完全依赖于模型参数β,但是目前没有必要做这个明确)。

例如,很容易看出,正态分布是指数族的一员,因为

,

.

表2.1给出了在R中为GLM实施的指数族成员的类似分解。

用a,b和φ可以得到指数族分布的均值和方差的一般表达式。给定一个特定的y,θ的对数似然性仅仅只是将log[fθ(y)]视为θ的一个函数。那是

.

将l作为一个随机变量来处理,通过用随机变量Y替换特定的观测值y,可以评估?l/?θ的期望值:

使用E(?l/?θ)=0这个一般结果,(在θ取真值时,参见2.4节中的(2.14))和重新排列意味着E(Y)=b0(θ)。(2.1)即任何指数族随机变量的均值由的一阶导数给出。θ,其中b的形式取决于特定的分布。该等式是将GLM的模型参数β与指数族的典范参数联系起来的关键。在GLM中,参数β决定了反应变量的均值,并且通过(2.1),它们决定了每个反应观测值的典范参数。

,

再次对似然性微分处理

,

并将其插入到一般结果中,E(?2l/?θ2)=-E[(?l/?θ)2](衍生物在真实θ值下计算,参见结果(2.16),第2.4节),

重新安排第二个有用的一般结果:

var(Y)=b00(θ)a(φ).

a原则上可以是φ的任何函数,并且当与GLM一起工作时,如果φ是已知的,处理任何形式的a都是没有困难的。然而,当φ未知,事情就会变得很尴尬,除非我们可以写出(φ)=φ/ω,其中ω是一个已知常数。事实上,这种限制形式涵盖了所有有实际意义的案例(见表2.1)。a(φ)=φ/ω允许基于正态分布的模型中的不等方差的可能性,但是在大多数情况下,ω仅为1.因此,我们现在有

var(Y)=b00(θ)φ/ω.(2.2)

在随后的章节中,我们通常会将var(Y)视为μ≡E(Y)的函数,这会很方便,并且由于μ和θ通过(2.1)链接,我们总能定义一个函数V(μ)=b00(θ)/ω,使得var (Y)=V(μ)φ。表2.1列出了几个这样的功能。

2.1.2拟合广义线性模型

回想一下,GLM模拟独立反应变量的n阶向量Y,其中μ≡E(Y),通过

g(μi)=X iβ

Yi~fθi(yi),

其中fθi(yi)表示指数族分布,典范参数θi由μi(通过方程2.1)决定,因此最终由β决定。给定Y的一个观测值向量y,β的最大似然估计是可能的。由于Yi是相互独立的,β的似然函数是

n

L(β)=Yfθi(y i),

i=1

因此β的对数似然函数是

,

右边对β的依赖是通过θi对β的依赖。请注意,函数a,b和c可能随着i而变化-例如,允许不同的二项分母ni,对于每个二项式反应的观测值,或对于正常反应的不同方差(但在常数内已知)。另一方面,对于所有的i,假设φ是相同的。正如前一节所讨

论的那样,对于实际工作来说,只考虑可以写出ai(φ)=φ/ωi的情况就足够了,其中ωi 是已知常数(通常为1),在这种情况下

.

通过偏导令结果表达式为零并求出β。

,

通过这个链式法则

,

所以微分(2.1),我们可以得到

,

然后推出

.

将(2.1)和(2.2)代入最后一个方程,意味着求解β的方程是

(2.3)

, (2.4)

然而,如果权重V(μi)事先已知且与β独立,那么这些方程就正好是为了通过非线性加权最小二乘寻找β而必须解出的方程。在这种情况下,最小二乘的目标是其中μi非线性地依赖于β,但权重V(μi)被视为固定的。要找到最小平方估计值,包括求解?S/?βj=0?j,但当V(μi)项被视为固定时,这个方程组很容易被看作是(2.3)。

这种对应立即提出了一种求解(2.3)的迭代方法。令β[k]表示在第k次迭代处的估计参数向量,并且令η[k]和μ[k]为具有元素ηi[k]=Xiβ[k]和μ[ik]=g-1(ηi[k])的向量,其中g-1(·)是链路的反函数。从参数估计开始,β[0],迭代以下步骤,直到β[k]的序列收敛:

1.计算当前β[k]隐含的V(μ[ik])项。

2.为了得到β[k+1](V(μ[ik])被视为固定的而不是作为β的函数)

3.设置k到k+1

实际上,这种方法比需要的要慢。第2步本身涉及迭代,但在已经收敛之前实际上将非线性最小二乘方法迭代到收敛没有多大意义。因此,第2步通常被替换为:

2.使用β[k]作为初始来获得β[k+1]。

应用这种方法会产生一个相当紧凑和简洁的方案。为了看到这个,让我们以矩阵形式写出非线性最小二乘问题。定义对角矩阵V[k],其中V[k]ii=V(μ[ik])(2.4) 附近的一阶泰勒展开替代,所以

因此,没有进一步的近似

J ij=?μi/?βj|β?[k].Now

.

由“伪数据”的定义

对角线权重矩阵

.

因此,下面的步骤可迭代到收敛

1.使用当前的μ[k]和η[k]计算伪数据z[k]和迭代权重W[k]。

2.将对于β的平方和最小化,以便获得β[k+1],因此η[k+1]=Xβ[k+1]和μ[k+1]。将k 增加1。

收敛的β解决了(2.3),因此是β?的最大似然估计。该算法在大多数实际情况下趋于一致,但也有例外(例如,二项数据的不良或过于灵活的模型)。

请注意,要开始迭代,我们只需要μ[0]和η[0]的值,不需要β[0]。因此,迭代通常通过设置μ[0]i=yi和ηi[0]=g(μ[0]i)开始,并根据需要轻微调整μ[0]i,以避免无限的ηi[0](例如,如果yi=0且有对数链路)。该方法被称为IterativelyRe-weightedLeastSquares (IRLS),原因很明显,在此背景下,归因于Nelder和Wedderburn(1972)。

2.1.3 IRLS的目标是对数似然的二次近似

IRLS迭代中的工作线性模型不仅仅是寻找参数的最大似然估计的手段。在一个加性常数内

(在收敛时)也是模型在β附近的对数似然的二次近似。显然,第一个衍生工具是关于对数似然和S之间的βj匹配:实际上它们都是零。S的二阶导数矩阵为-XWX/φ,并且这被证明与对数似然的期望的二阶导数矩阵匹配,并且因此在大样本极限中由大数定律来匹配二阶导数矩阵本身。

为了证明这一点,首先将u定义为关于模型参数的对数似然的导数向量,因此ui=?l/?βi,然后将(2.3)中的导数以矩阵向量形式重写为

u=X T G?1V?1(y?μ)/φ.

?注意,如果V(μi)被视为β的函数,算法不会最小化(2.4),因为在这种情况下,令导数为零不会产生(2.3)。换句话说,最大似然与具有平均方差关系的最小二乘基本上不同。

E(uu T) =X T G?1V?1E[(Y?μ)(Y?μ)T]V?1G?1X/φ2

=X T G?1V?1VV?1G?1X/φ

=X T WX/φ

导数的这种对应关系足以证明S是β附近的对数似然的二次近似,并且由于MLE的一致性,它们在真实参数值附近。

2.1.4 AICforGLMs

通过对可能性进行直接比较的模型选择存在如下问题:如果将冗余的参数添加到正确的模型中,可能性几乎总是增加(并且从不减小),因为额外的参数让模型更接近数据,即使这只意味着对数据的组成部分进行“噪声建模”。正如在线性模型的情况下,如果我们能够根据它们拟合数据均值μ而不是数据y的能力来选择模型,这个问题会得到缓解。在GLM背景下,合理的方法是根据模型最大化l(β;μ)而不是l(β;y)的能力来选择模型,但是为了做到这一点,我们必须能够估计出l(β;μ)。

实际上这个估计很明确

,

并且因为y=μ时,这也必须成立

.

然后,这个论据的(1.15)(只修改权重)产生了估计量

tr(A)

' l(β?;y)?tr(A)+n/2

A=X(X T WX)?1X T W andhencetr(A)=p,(可识别的)模型参数的数量。

因此,在模型之间进行选择时,我们会选择哪个模型具有最高的l(β)-p值,这相当于选择了Akaike信息准则的最低值(Akaike,1973),AIC=2[-l(β)+p]。

前面的论点假设φ已知。如果不是,那么就需要一个φ的估计来计算AIC,结果AIC 中的惩罚项p将变为p+1。这种归纳

的大样本分布

GLM的分布结果并不精确,反而是基于大样本近似,利用包括一致性在内的最大似然估计的一般性质(见2.4节)。根据最大似然估计量的一般性质,我们认为,在大样本限制下,

β?~N(β,I?1),

其中I=E(uuT)是模型参数的信息矩阵,u是关于模型参数的对数似然函数的导数向量,因此

β?~N(β,(X T WX)?1φ).

对于具有已知尺度参数φ的分布,可以直接使用此结果来查找参数的置信区间,但是如果尺度参数未知(例如对于正态分布),则必须估计它,并且区间必须基于一个合适的t 分布。尺度

考虑检验

H 0:g (μ)=X 0β0

相反

H 1:g (μ)=X 1β1,

其中μ是反应向量Y 的期望,Y 的元素是来自指数族分布的相同成员的独立随机变量,其中X0?X1。如果我们有反应向量的观测值y ,则可以执行广义似然比检验。令l (β0)和l (β1)为两个模型的最大似然率。如果H0为真,则在大样本限制中,

2[l(β?1)?l(β?0)]~χ2p1?p 0, (2.5)

sothattwicethe?whichshouldstrictlybeamaximumlikelihoodestimate 原假设是假的,则模型1倾向于具有比模型0高得多的可能性,从而两倍于严格应该是最大似然估计的?,或者在大样本限制下倾向于MLE 的估计值。

对数似然对于相关的χ2分布的一致性差异太大。

如果可以计算相关模型的对数似然性,那么近似结果(2.5)仅仅是有用的。在由IRLS 估算的GLM 情况下,只有当尺度参数φ已知时才是这种情况。因此,结果可以与泊松和二项模型一起直接使用,但不能与正态§,伽马或反高斯分布(其中尺度参数未知)一起使用。稍后将简短地讨论在后面这些情况下做什么。

偏差

在实践

中使用GLM 时,在普通的线性建模

中,用与残差平方和类似的方式来

解释数量是有用的。

Xi=1h i 这个数量是模型的偏差,被定义为 thetermsinsidethesummation 其中l (βmax )表示饱和模型的最大可能性:每个数据点具有一个参数的模型。在给定数据的情况下,l (βmax )是可能性具有的最大值,并且可以通过简单地设置μ=y 并计算出可能性来计算。θ?和θ分别表示关于饱和模型和兴趣模型的典范参数的最大似然估计。注意如何将偏差定义为与φ独立。表2.1列出了单个数据对偏差的贡献,对于若干分布-这些是偏差定义中求和中的项(术语)。 scaleddeviance,

与偏差相关的是调整偏差,

D ?=D/φ,

D = = 2[l(β?max )?l(β?)]φ n 2ωi y i (θ?i ?θ?i )?b(θ?i )+b(θ?i ), (2.6) (2.7)

这取决于尺度参数。对于二项分布和泊松分布,其中φ=1,偏差和比例偏差是相同的,但通常情况并非如此。

通过广义似然比检验结果(2.5),我们可以预计,如果模型是正确的,那么近似

D?~χ2n?p, (2.8)

tojustify(2.8)asalargesampleapproximationundermanycircumstances

在大样本限制中。实际上,这样的论点是捏造的,因为证明(2.5)的限制论证依赖于模型中参数的数量保持不变,而样本容量趋于无穷大,但饱和模型具有与数据一样多的参数。渐近结果可用于表2.1中的一些分布,以在许多情况下将(2.8)证明为大样本近似值(参见

当然,对于正态分布和一致性链接,我们使用第1章的结果。

这对于正态分布情形下是精确的。但是,请注意,它完全打破了二进制数据的二项式。

鉴于偏差的定义,很容易看出,本节开始的似然比检验可以通过重新表达两次对数似然比统计量作为。然后在H0下

(2.9)

(在大样本极限内),其中Di*是具有pi个可识别参数的模型i的偏差。但是,这只有在尺度参数已知时才有用,以便可以计算D*。

与未知φ的模型比较

在H0下我们有近似的结果

and,

并且,f如果被看作是渐近独立的,这就意味着

,

在大样本限制下(当然,在普通线性模型特例中结果确实如此)。F的有用性质是它可以在不知道φ的情况下进行计算,这可以从比率收益的顶部和底部取消,在H0下,近似结果

. (2.10)

这个结果的优点是,当φ未知时,它可用于基于模型比较的假设检验。缺点是对于Di的可疑的分布假设以及它所基于的独立性近似。

当然,一个明显的替代方法是使用估计值φ来获得每个模型的估计值Di*=Diφ,然后使用(2.9)进行假设检验。

然而,如果我们使用估计(2.11)来达到这个目的,则很容易看出它只是(n-p1)×F,所以我们的测试将完全等同于使用F比率结果(2.10),但是使用Fp1-p0,∞作为参考分

布。显然直接使用(2.10)是一种更保守的方法,因此通常是首选:它至少在估计尺度参数时考虑到了不确定性。

正如我们已经看到的那样,参数β的MLE可以在不知道尺度参数φ的情况下获得,但是在这些参数未知的情况下,通常必须进行估计。近似结果(2.8)提供了一个明显的估计量。

一个χ2n-p随机变量的期望是n-p,所以等同于观测值

达到我们的近似预期值

φ?D=D/?(n?p). (2.11)

第二个估计量基于Pearson统计量,定义为

显然,X2/φ是一组零均值,单位方差,随机变量的平方和,具有n-p个自由度,这表明如果模型适当,则近似X2/φ?x2n-p:这个近似值是有根据的。将观测到的Pearson 统计量设置为我们得到的预期值

φ?=X?2/(n?p).

请注意,它很明确的表明这一点

,

其中W和z是IRLS权重和伪数据,在收敛时进行评估。

2.1.8典范链接函数

典范链接gc用于分布,是链接函数,使得gc(μi)=θi,其中θi是分布的典范参数。例如,对于泊松分布,典范链接是对数函数(其他示例见表 2.1)。典范链接的使用意味着θi=Xiβ(其中Xi是X的第i行)。

典范链接倾向于具有一些很好的性质,例如确保μ保持在反应变量的范围内,但它们也具有更多微妙精细的优点,其中之一在此处被推导出。回想一下,似然最大化涉及对每个βj的对数似然性微分,并令结果为零,以获得方程组

但是,如果正在使用典范链接,则?θi/?βj=Xij,如果像通常情况,wi=1?i,这个方程组可简化为

X T y?X Tμ?=0,

i.e.to X T y=X Tμ?.即,简化为

现在考虑X包含1列的情况:任意其他加权求和,其中权重由模型矩阵P给出,这意味着该系统中的一个方程简单地为iyi=iμi。

?Recallthatif{Z ii2~χ2n.

回想一下,如果{Zi:i=1...n}是一组独立同分布,N(0,1)r.v.然后是PZi2-χ2n。

列(或这些的线性组合)在原始数据和拟合值之间保存。

其中一个实际结果是,对于任何具有截距项和典型联系的GLM,残差总和为零:这种“观察到的无偏性”是一个令人放心的特性。结果的另一个实际用途是在使用对数线性模型的分类数据分析中,其中它通过规定模型提供了一种方法,可以保存任何模型中保存的内置于研究设计中的总数。

2.1.9残差

模型检查可能是应用统计建模中最重要的部分。在普通线性模型情况下,这是基于对模型残差的检验,模型残差包含数据中的所有信息,而不是由模型的系统部分来解释。残差检验也是GLM案例模型检验的主要手段,但在这种情况下,残差标准化是必要的,并且更加困难。

对于GLM而言,不仅仅只检查原始残差的主要原因是难以检查原始残差检验假设的均值方差关系的有效性。例如,如果采用泊松模型,则残差的方差应与拟合值(μi)的大小成正比增加。然而,如果将原始残差与拟合值作图,则需要一种杰出的能力来判断残差的可变性是否与均值成比例增加,而不是均值的平方根或平方。出于这个原因,通常将GLM残差标准化,以这种方式,如果模型假设正确,则标准化残差应该具有大致相等的方差,并且尽可能与来自普通线性模型的残差相似(尽管见第6.5节中图6.9的替代绘图方法)。

皮尔森残差

根据拟合模型,将残差标准化的最明显的方法是将它们除以与其标准差成比例的量。这导致了皮尔森残差

,

如果模型正确,它应该具有近似为零的均值和方差φ。当与拟合值或任何协变量(无论是否包含在模型中)进行绘图时,这些残差不应显示均值或方差的任何趋势。“皮尔森残差”这个名字与相关的皮尔森残差的平方和给出了

请注意,皮尔森残差是来自收敛IRLS方法的工作线性模型的残差除以收敛IRLS权重的平方根。

异常残差

在实践中,皮尔森残差的分布在零附近可以是非常不对称的,因此它们的行为不像可能希望的那样接近普通线性模型残差。异常残差在这方面通常是优选的。异常残差是通过注意到偏差对GLM起到与残差平方和对普通线性模型起相同作用来得到:确实,对于普通线性模型来说,偏差是残差平方和。在普通线性模型情况下,偏差由平方残差和组成。这就是具有适当标示的偏差组成部分的平方根的残差。

因此,把di写成第i个数据所贡献的偏差的一部分(即(2.7)中求和的第i项),我们有

并且通过与普通线性模型类比,我们可以定义

.

根据需要,这些“异常残差”的平方和给出了偏差本身。

现在如果计算了所有参数已知的模型的偏差,则(2.8)将变成D*?x2n,这可能表明对于单个数据di?x12,可推出。当然,(2.8)不能合理地应用于单个数据,但对于良好的拟合模型来说,这表明我们可能预期异常残差具有类似于N(0,1)随机变量的行为,特别是在对(2.8)预计是一个合理的近似值的情况下。

拟极大似然

迄今为止,GLM的处理假定反应变量的分布是指数族的已知成员。如果有充分的理由假设该反应变量遵循特定的分布,则它对该分布上的基本模型很有吸引力,但是在许多情况下,反应分布的性质并不十分清楚,并且可能它只能详细说明反应变量的方差与其均值之间的关系。也就是说,函数V(μ)可以被指定,但是好不了多少。然后出现的问题是,是否有可能开发用于拟合和推理GLM的理论,从仅指定平均方差关系的位置开始。

事实证明,基于拟极大似然的概念,开发出令人满意的方法是可能的。考虑一个具有均值μi和已知方差函数V(μi)的随机变量的观测值yi。然后对于给定yi的μi的对数拟极大似然定义为

(2.12)

正如我们将会看到的,这个函数的关键特征是它具有li的许多有用特性,即对应于单个观测的对数似然,但只需要V的知识而不是Yi的全部分布。假设数据是独立随机变量的观测值,我们可以定义所有反应数据的平均向量μ的对数拟极大似然或定义μ的任意参数向量为

.

q的关键特征是,为了推导GLM,它表现得与对数似然函数非常相似,但只需要方差函数就可定义它。

例如,考虑获得GLM参数β的最大拟似然参数估计。对q关于βj产量微分

,

所以参数估计是方程的解

但这正是方程组(2.3),必须解决这个问题才能找到GLM的。因此,最大拟似然参数估计可以通过通常的GLMIRLS方法找到,在任何情况下只需要知道V(μ)。

此外,对数拟似然性与参数估计值对数似然性具有足够的性质,并且对于参数的最大拟似然估计量值也适用。类似地,当对数似然度l被对数拟似然函数q代替时,

请注意,饱和模型的对数拟似然始终为零,因此GLM的拟偏差很简单

D q=?2q(μ?)φ.

很显然,关于残差和尺度参数估计的讨论也从似然性中延续到拟似然的情况,但不超过用q代替l。

拟似然性方法的实际应用要求对(2.12)中的积分进行评估,但对于大多数实际有用的V的形式,这是可能的:McCullagh

和Nelder(1989)给出了例子,或者在R中你可以输入例如

以获得所执行的任何特定均值方差关系的qi形式。对于表2.1中对应于指数族分布的均值方差关系,拟偏差的形式精确对应于该族的偏差形式。

拟似然性的一个主要实际用途是提供一种来模拟比泊松或二项分布(具有其固定尺度参数)更可变的计数数据的方法:拟似然性方法假定φ未知。这种“过度分散”的数据在实践中很常见。另一个实际用途是提供一种对具有平均方差关系的数据建模的方法,其中没有明显的指数族分布:例如,预期方差与均值成比例的连续数据。

2.2GLM的几何图形

GLM和GLM拟合的几何图形比普通线性模型的几何图形更难,因为用于判断模型拟合的可能性通常不意味着拟合可以通过模型和数据之间的欧几里得距离来判断。图2.1用一个含有2个参数的GLM的3个数据拟合Gamma分布和对数链接的例子说明了GLMs的几何情况。1.4节的平坦模板子空间现在被一个弯曲的“模型流形”所取代,该模型流形由模型可预测的所有可能的拟合值向量组成。由于模型流形与数据之间的欧几里德距离不再被用来进行拟合度的测量,因此必须采用不同的方法来说明估计的几何结构。图2.1右端板的黑线显示了所有反应变量的组合,这些变量产生了相同的估计模型。注意这些线条通常并不平行,并且通常不与模型流形正交。

要充分理解图2.1,它可能有助于考虑一些不同的含有2个参数模型的图形。

1.对于一个普通的线性模型,模型流形将是一个平面,所有的相等线拟合将是正交的(因此相互平行)。

2.对于假定正态分布(但是非一致性链接)的GLM,相等线拟合将与它们遇到的模型流形的(切线空间)正交。

3.对于拟合4个数据的含有2个参数的模型,相等线拟合将变成相等平面拟合。

一般来说,图2.1所示的几何图形适用于任何GLM。有了更多的数据,相等线拟合就变成了n-p维相等面的拟合,其中n和p分别是数据和参数的数量:对于任何固定的β,方程(2.3)给出了定义这样一个平面的y的限制。请注意这些平面

x

图2.1GLM的几何图形。左端板展示了所示的三个x,y数据的广义线性模型E(y)≡μ=exp(β0+β1x)的最佳拟合,假设每个yi是由模型给出的带有均值的

Gamma分布随机变量的一个观测值。右端板展示了使用此模型作为示例的GLM 拟合的几何图形。所示的单位立方体表示向量(y1,y2,y3)T定义单点空间。灰色表面根据模型显示所有可能的预测值(在单位立方体内),即它表示所有可能的(μ1,μ2,μ3)T值。由于参数β0和β1允许在所有可能的值上变化,这就是相应模型“拟合值”追踪的表面:“模型流形”。连续线从立方体的一个面开始,在另一个面上离开,是等效拟合线:位于这样一条线上的反应数据(y1,y2,y3)T的值各自导致相同的β0,β1的最大似然估计,即相同的(μ1,μ2,μ3)T。注意等效拟合线既不相互平行,也不与模型流形正交。

可以相交-稍后将返回的点。对于离散反应数据,图片没有什么不同,尽管只有在可能性连续概括下(通常可以通过在概率函数中用合适的伽玛函数代替阶乘)才能严格得到相等线拟合。只有正态分布才能与模型流形有正交的相等线/平面拟合。对于其他分布,相等线/平面拟合有时可能彼此平行,但决不会全部与模型流形正交。

2.2.1IRLE的几何图形

通过考虑一个参数模型对2个反应数据的拟合,IRLS估计算法的几何图形是最容易理解的。图2.2说明了这种模型的几何结构:在这种情况下,一个具有对数链接和Gamma错误的GLM,

图2.2GLM的几何图形。E(yi)≡μi=20exp(-βxi)其中yi?Gamma和i=1,2。左端板展示了拟合2个x,y数据的模型(连续线)的最大似然估计值,显示为?。右端板显示了拟合几何图形。15×15的正方形是空间<2中的一部分,其中(y1,y2)定义为单点。粗体曲线是“模型流形”:它根据模型包含所有可能的点(μ1,μ2)(即,当β变化时,(μ1,μ2)可以追踪该曲线)。细线是相等线拟合的例子。位于这些线之一上的所有点(y1,y2)共享相同的β的MLE,即(μ1,μ2):这个MLE是相等拟合线切割模型流形的地方。对于β=.1,.2,.3,.4,.5,.6,.7,.8,.9,1,1.2,1.5,2,3,4绘制相等线拟合。(β=.1,.7和2用实线表示,当β=2时候的线接近图形的底部。当β=.1时候的线在该图的绘图区外,但出现在随后的图中。)但是可以通过链接和分布假设的任意组合来为GLM构建类似的图片。

现在拟合GLM的关键问题是模型流形不平坦,并且相等线拟合与它们遇到的模型流形不正交。IRLS方法对拟合问题进行线性转换和重新调整,因此在当前的μ的估计值时,模型流形和相等线拟合是正交的,并且在重新调整的空间中,当前μ的估计值的位置由X乘以当前的β估计值给出。这种重新调整会产生一个拟合问题,可以将其视为局部线性,从而可以用最小二乘法更新β估计值。

图2.3说明了IRLS步骤如何涉及形成伪数据并对其进行加权,从而将拟合问题有效地转化为可以通过线性最小二乘法近似解决的问题。该图说明了IRLS步骤中涉及的转换,这些转换重复进行,直到IRLS方法被迭代到收敛。

(a) (b)

1 1

(c) (d)

1 1

图2.3基于图2.2所示的GLM的IRLS估计的几何图形。(a)显示拟合问题的几何图形-模型流形是粗黑色曲线,等拟合线是细线(如图2.2),数据是?和拟合值的当前估计值μ[k]。(b)问题以当前拟合值为新中心(yi被yi-μ[i]代替)。(c)问题被重新线性调整,使得X的列现在跨越模型流形的切线空间。切线空间用灰线表示(这个步骤用g0(μ[ik])(yi-μ[ik]))代替yi-μ[ik]。

(d)该问题是线性转换的,因此现在由Xβ[k]给出位置。对于大多数GLM,现在必须通过将相对于每个轴的分量乘以√Wi来再次调整问题,其中Wi是迭代权重:这将确保通过的相等估计线与切线空间正交。在当前的例子中,这些权重都是1,因此所需的正交性已经成立。现在对于转换后的问题,在模型流形的附近,可以用切线空间来近似,其中相等线拟合近似正交:因此,可以通过找到转换数据的最小二乘投影来获得μ和β的更新估计,到切线空间(灰线)。

图2.4拟合和收敛问题的几何图形。具有对数链接和正常错误的含有1个参数的GLM的几何图形被显示。厚曲线是模型流形-根据模型,在单位平方内包含所有可能的数据拟合值。细线是相等线拟合(水平如图 2.2)。注意在图的左上角,相等线拟合是如何相互交叉的。该重叠区域中的数据将产生具有多于一个参数值的局部最小值的模型可能性。考虑IRLS拟合方法的运行,表明在这种情况下,根据用于启动拟合过程的初始值,它可以收敛到不同的估计值。?说明问题反应向量的位置,用于说明文本中的非独特收敛。

2.2.2IRLS收敛的几何图形

图2.4说明拟合模型的几何图形,E(yi)≡μi=exp(-βxi),其中yi是正态分布的,有两个数据yi拟合,其中x1=0.6和x2=1.5。如前两节所示,相等线拟合显示在一个图形上,其中反应向量(y1,y2)T将定义一个单点,并根据该模型,所有可能的拟合值(μ1,μ2)T的集合显示为一条厚曲线。在这个例子中,相等线拟合在图的左上角相交并交叉(对应于非常差的模型拟合)。

这个交叉点是有问题的:特别是,IRLS拟合位于左上角的数据的结果将取决于IRLS处理开始的初始参数估计,因为每个这样的数据点位于两条相等拟合线的

交点处。如果IRLS迭代从图形右上角的拟合值开始,则接近右上角的拟合值将被估计,然而用图形左下角的拟合值开始迭代将导致估计的拟合值不同,并更接近图形的左下角。

在实践中这确实发生,可以很容易的在R中展示出来,通过拟合数据y1=.02,y2=.9,如图2.4所示,可以很容易地证明。

请注意,这里的第二个拟合实际上具有较高的可能性(较低的偏差)-拟合在可能性方面不是等同的。引起这些模糊的拟合几何图形的类型并不总是会发生:例如,一些模型具有相等拟合的平行线/平面,但对于任何具有相等线拟合的交叉线/平面的模型而言,存在一些模糊性的范围。幸运的是,如果模型是一个好的模型,那么位于模糊区域的数据往往是不太可能的。在图2.4的例子中,问题区域完全由模型只能很差地拟合的数据组成。由此可见,非常差的数据模型可能会产生这种类型的估计问题:但对于非常差的模型而言,将模型作为任何复杂数据集的早期尝试的特征并不罕见。如果遇到这样的问题,那么通过对转换后的反应数据进行线性建模可能会更好,直到已经确定足够好的候选模型转换回GLM为止。

当然,如果选择合理的起始值,那么在拟合GLM时拟合过程中的模糊性不太可能引起重大问题:毕竟,该算法将收敛到可能性的局部最小值之一。然而,当它在可选最小值之间循环而不会收敛时,模糊性可以通过“性能迭代”在GAM估计中引起更严重的收敛问题,。

2.3GLMswithR

glm函数提供了在R中使用GLM的手段。它的使用与lm函数的使用类似,但有两点区别。模型公式的右侧指定线性预测变量的形式,现在给出了反应均值的链接函数,而不是直接使用反应均值。此外,glm需要一个族论点,用于指定要使用的指数族的分布以及与之一起使用的链接函数。在本节中,将介绍glm函数与各种简单GLM的用法,以说明GLM涵盖的各种模型结构。

分布模型和心脏病

如果对于心脏病患者能够提供最好的照顾,那么能够尽早发现心脏病是再好不过的。关于检测心脏病的一种方法是检测血液中肌酐激酶(CK)的水平。

CKvalue Patientsw

ith Patientswi thout

Heartatta ck heartattac k

20 2 88

60 13 26

100 30 8

140 30 5

180 21 0

220 19 1

260 18 1

300 13 1

340 19 1

380 15 0

420 7 0

460 8 0

表2.2作为CK水平函数的心脏病发作概率的数据(来自Hand等人,1994)。

血流。一项研究被进行(Smith,1967),其中测量了怀疑患有心脏病的360名患者的CK水平。后来经过更长时间的医学调查后,确定每名患者是否确实有心脏病发作。数据见表2.2。原始报告根据CK水平的范围对患者进行分类,但在表中仅给出了该范围的中点。

能够基于这些数据的诊断标准是很好的,这样CK水平可以用来估计患者发生心脏病的概率。我们可以通过构建一个模型,试图从CK水平解释心脏病发作的患者比例,从而朝着这样一个目标迈进。在接下来的数据被读入一个名为heart的data.frame中。它包含变量ha,ok和ck,给出了随后在每个CK水平发生或未发生过心脏病发作的患者数量。将观察到的比例与CK水平进行作图是有意义的。

结果图是图2.5。

描述这些比例的特别方便的模型是

,

其中pi是在CK水平xi下心脏病发作的比例。这条曲线是S形的

肌酸激酶水平

图2.5随后被诊断为心脏病发作的观察到的患者比例,与进入时的CK水平比较。

形状,边界从0到1。(显然,心脏数据并未显示此拟建曲线的较低尾部)。这意味着心脏病患者的预期数目由下式给出:

,

其中Ni是已知的每个CK水平下的患者总数。这个模型在它的参数上有些是非线性的,但是如果'logit'链接被应用,我们可以得到,

,

isappliedtoitweobtain

g(μi)=β0+β1x i,

在模型参数中是线性的。logit链接是二项模型的典范链接,因此是R中的默认链接。

在R中有两种用glm指定二项模型的方法。

1.反应变量可以是观察到的成功二项试验的比例,在这种情况下,提供试验次数的阵列必须作为glm的权重参数提供。对于二进制数据,不需要提供权重向量,因为默认权重为1就足够了。

2.反应变量可以作为两列阵列提供,其中第一列给出了二项“成功”的数目,第二列是二项“失败”的数目。

对于当前的例子,将使用第二种方法。提供2个阵列

Predictedvalues TheoreticalQuantiles

Predictedvalues Obs.number

图2.6首次尝试拟合CK数据的模型检查图。

的模型公式涉及使用cbind。这是一个拟合心脏病发作模型的glm呼叫

因为logit链接对于二项式是标准的,因此是R的默认值。以下是有关该模型的默认信息:

零偏差是只有一个常数项模型的偏差,而偏差残差是拟合模型的偏差(以及在二项模型情况下的调整偏差)。这些可以结合起来给出比例偏差的解释,即r2的普遍化,如下所示:

AIC是该模型的Akaike信息准则

注意到χ210随机变量的偏差非常高,如果模型拟合良好,它应该近似。事实上

表明χ210随机变量的概率非常小,为36.93。残差图(如图2.6所示)也表明拟合效果差。

这些图与普通线性模型的,预测值是在线性预测因子的比例上而不是反应变量上,有些在正常qq图的直线关系偏离往往是可以预料的。如果数据太少,这些图很难解释,但似乎有一个趋势,即对拟合值进行残差绘制的方法,这会引起关注。此外,第一点有相当大的影响力。请注意,二进制数据对残差的解释将更加困难:练习2探索了可以在二进制情况下采用的简单方法。

注意这些问题在原始估计概率上叠加的拟合值的图中没有那么明显的显现出来(见图2.7):

还要注意,由glm提供的二项式模型的拟合值是估计的pi值,而不是估计的μi值。

残差图建议尝试一个立体线性预测器,而不是最初的直线。

肌酸激酶水平

图2.7心脏病发作对CK水平的预测和观察概率。

很明显,4.252与χ28分布的一致性并不太大(实际上它低于预期值),而且AIC已经大幅改善。残差图(图2.8)现在显示的模式不如以前的模型清晰,但如果我们有更多的数据,则偏离常数方差就会引起关注。此外,现在的拟合更接近数据(见图2.9):

我们还可以用R来测试mod.0对于需要mod.2的替代方法是否正确的原假设。虽然它是对正在执行的偏差(即广义似然比检验)的分析,而不是对方差的分析,但是有点令人困惑的是,使用了方差分析函数来做到这一点。

Predicted values Theoretical Quantiles

Predicted values Obs. number

图2.8第二次尝试拟合CK数据的模型检查图。

图2.9心脏病发作对CK水平的预测和观察概率。

图2.10比利时每年的艾滋病病例

这个低的p值表示反对原假设的非常有力的证据- 我们确实需要模型2。回想一下,模型的比较比个别偏差的检验有更稳固的理论基础。

2.3.2 泊松回归流行病模型

本章的介绍包括了一个流行病早期阶段的简单模型。Venables和Ripley(2003)提供了1981年以后比利时每年新发艾滋病病例数的一些数据。数据可以输入到R 中并绘制如下。

图2.10显示了结果图。与这些数据有关的科学趣味问题是,它们是否提供任何证据来表明新病例生成的基础比率增加正在放缓。介绍中的简单模型可能为开始调查此问题提供了一个合理的模型。该模型假设每年潜在预期案例数量μi 根据以下公式增加:μi= cexp(bti)

其中c和b是未知参数,ti是自开始以来的年数

Predicted values Theoretical Quantiles

Predicted values Obs. number

图2.11 AIDS数据的mo拟合残差图。

数据。对数链接将其转换为GLM,

log(μi) = log(c) + bt i = β0 + t iβ1,

我们假设yi?Poi(μi),其中yi是第ti年观察到的新病例数量。yi被假定为独立的。这本质上是一种无检查的疾病传播模型。

以下拟合该模型(对数链接对于泊松分布是典范的,因此也是R的默认值)并检查它。

这个偏差对于它应该的χ211随机变量的观测值是非常高的

Predicted values Theoretical Quantiles

Predicted values Obs. number

图2.12 AIDS数据的m1拟合残差图

如果模型拟合得好,可以近似。图2.11所示的残差图也令人担忧。特别是残差均值的清晰模式(与拟合值相对作图)显示违反了独立性假设,可能是由于遗漏了某些模型中的重要因素。因为对于这个模型,拟合值随时间单调递增,如果残差相对于时间绘制,我们将得到相同类型的模式- 即可以有效地将时间的二

广义线性模型与汽车保险费率厘定

广义线性模型与汽车保险费率厘定 胡三明 西南财经大学保险学院 【摘要】本文回顾了汽车保险费率厘定模型的发展历程,并对广义线性模型从建模、统计分析、模型的选择与诊断等方面进行了比较系统的介绍,最后通过一个汽车保险的实例来介绍其在分类费率厘定过程中具体运用,具有较强的实践意义。 【关键词】广义线性模型分类费率厘定 一、导论 对于传统费率厘定模型,精算师过于依赖简单的单因素分析法和双因素分析法,其中,单因素分析常受到费率因子间相关性的影响而被扭曲,同时也没有考虑到因子间独立性的影响。对此,精算师在六十年代探索出了迭代模型——最小偏差法,使其得到重大的改进,但仍然没有形成完整的统计框架。最小偏差法试图通过迭代的方法来求出一系列方程的最优解,但它无法测试一个特定的变量的影响效果,同时也不能提供可靠的参数估计范围。 广义线性模型(GLM)是传统线性模型以及许多最常见的最小偏差法的延伸,从技术角度看,比标准的迭代模型更有效率,它提供的统计诊断功能,有助于挑选重要的变量并且确认模型的假设条件。如今,广义线性模型在欧盟和许多其他市场,被公认为是对私家车和其他私人业务以及小额的团体业务进行定价的行业标准模型。 广义线性模型的个别特例很早就已出现,早在1919年就曾被Fisher使用过,二十世纪四五十年代,Berkson,Dyke和Patterson等人使用过最著名的Logistic模型,1972年Nelder和Wedderburn在一篇论文中率先使用广义线性模型一词,此后相关研究工作逐渐增加,1983年McCullagh和Nelder出版了系统的论著,并于1989年再版。 二、广义线性模型 (一)、线性模型 一个传统的线性模型具有如下形式: ' i i y xβε =+i 其中 i y是响应变量的第i次观测, i x是协变量,表示第i 次观测数据,未知系数向量β通过对数据i y的最小二乘拟合估计出来。假定εi是均值为零,方差为常数的独立正态随机变量。对于一般的线性 回归模型(LM)' i i y xβε =+i可以分解为三个要素:LM1:随机要素,即Y服从正态分布, () i E y μ=; LM2:系统要素,' i x ηβ =; LM3:连接要素,ημ =; (二)、广义线性模型 尽管传统的线性模型广泛地应用于统计数据分析中,但它却不适合处理如下几类问题: (1) 将数据分布假设为正态分布并不合理; (2) 当数据的均值被限制在一定的范围内时,传 统的线性模型就不适用了,因为线性预测值' i xβ可以取任意值; (3) 假定数据的方差对于所有观测都是一个常数并不现实。 广义线性模型扩展了传统的线性模型,因此它适用于更广范围的数据分析问题。一个广义线性模型包括以下组成部分: GLM1:随机要素,Y服从比正态分布更一般的分布,即指数族分布; GLM2:系统要素同LM2,即保持线性结构;

广义线性模型

广义线性模型 一、广义模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution:特殊的指数指数族一员;在0点有很大的 概率并且在非0点有合适的分布;方差与均值的p次幂成正比4.GLM的结构:连接函数、设计矩阵、预估变量、offset变量 每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重 二、构建GLM模型 1.单因子分析:无法反映变量之间的关系,GLM可以排除这类关系, 得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应:模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms:当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3. 变量估计:通过逆矩阵相关方法求解 三、分析因子的显著性 1. chi-squared、F-statistics、AIC 等统计量

(1)偏离:比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。 (2)偏离度调整 (3)chi-squared 统计量:模型的自由度定义为观测的数量减去变量的数量 Nested models:可以利用chi-squared来检验偏离度的变化 (4) F-statistics (5)AIC:主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined 3.其他方法 (1)与预期值相比:每种水平下相对值的变动幅度,同时考虑每个水平下得标准偏差,其值的 (2)Comparison with time:model fit line;variation的大小应该与exposure的大小相反 不同渠道数据收集上的差异可能导致不一致的发生四、测试模型的适当性

广义线性模型

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸, 它是总体均值通过一个非线性连接 函数依赖于线性预测值, 有许多广泛应用的统计模型都属于广义线性模型,其中 包括正态误差的经典性模型, 二元数据的对数和概率单位模型以及多项数据的对 数线性模型, 还有其它许多有用的统计模型,如果选择合适的连接函数和响应概 率分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y ? XT? ??
其中, yi ?Y ? { y1 , y2 ,?, yn } 是因变量的第 i 次观测, xi ? X ? {x1 , x2 ,?, xn } 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 ? 可以通过对 Y 的 最小二乘拟合估计, ? 是均值为零,方差为常数的随机变量。 模型的几个基本假设: ? ? ? ? ? ? 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差 {? i } ~ N (0,? ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型, 是为了克服一般线性模型的缺点出现的,是一般线性模型的 推广。 ? 广义线性模型在两个方面对一般线性模型进行了推广: ? 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型 中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。 ? 一般线性模型中,自变量的线性预测值 ? 就是因变量的估计值 ? ,而广 义线性模型中,自变量的线性预测值 ? 是因变量的函数估计值 g ( ? ) 。 ? 广义线性模型包括一下组成部分: ? 线性部分正好是一般线性模型所定义的:
?i ? ?0 ? ?1 x1i ? ?2 x2i ? ? ? ?m xmi
? 连接函数( link function):
?i ? g (?i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的估计值 ? ”与“自变量的线性预测值 ? ”的作用 。在经典的线性模型中,“Y 的估计值”与“自变量的线性预测”是一回事。 ? 广义线性模型建立 通过对数据选定因变量和自变量, 以及选择合适的连接函数和响应概率分布, 既可以建立一个广义线性模型。例如: ? 一般线性模型 因变量:连续变量 分布:正态分布 连接函数: ? ? ? ? Logistic 回归模型 因变量:(0,1) 分布:二项分布 连接函数: ? ? log(
?
1? ? )
? Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

广义线性模型

广义线性模型

———————————————————————————————— 作者: ———————————————————————————————— 日期:

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸,它是总体均值通过一个非线性连接 函数依赖于线性预测值,有许多广泛应用的统计模型都属于广义线性模型,其中包 括正态误差的经典性模型,二元数据的对数和概率单位模型以及多项数据的对数 线性模型,还有其它许多有用的统计模型,如果选择合适的连接函数和响应概率 分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y XT
其中, yi Y {y1, y2, , yn} 是因变量的第i次观测, xi X {x1, x2, , xn} 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 可以通过对Y 的最 小二乘拟合估计, 是均值为零,方差为常数的随机变量。
模型的几个基本假设: 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差{i} ~ N(0, ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型,是为了克服一般线性模型的缺点出现的,是一般线性模型的 推广。
广义线性模型在两个方面对一般线性模型进行了推广: 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型
中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。
一般线性模型中,自变量的线性预测值 就是因变量的估计值 ,而广义
线性模型中,自变量的线性预测值 是因变量的函数估计值 g() 。
广义线性模型包括一下组成部分: 线性部分正好是一般线性模型所定义的:
i 0 1x1i 2 x2i m xmi
连接函数( link function):
i g(i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的
估计值 ”与“自变量的线性预测值 ”的作用 。在经典的线性模型中,“Y
的估计值”与“自变量的线性预测”是一回事。 广义线性模型建立 通过对数据选定因变量和自变量,以及选择合适的连接函数和响应概率分布,
既可以建立一个广义线性模型。例如: 一般线性模型
因变量:连续变量 分布:正态分布
连接函数:
Logistic回归模型 因变量:(0,1) 分布:二项分布 连接函数: log( )
1 Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

广义线性模型()

广义线性模型 广义线性模型*(Nelder和Wedderburn,1972)除了正态分布,也允许反应分布,以及模型结构中的一定程度的非线性。GLM具有基本结构 g(μi)=X iβ, 其中μi≡E(Yi),g是光滑单调'链接函数',Xi是模型矩阵的第i行,X和β是未知参数的向量。此外,GLM通常会做出Yi是独立的和Yi服从一些指数族分布的假设。 指数族分布包括许多对实际建模有用的分布,如泊松分布,二项分布,伽马分布和正态分布。GLM的综合参考文献是McCullagh和Nelder(1989),而Dobson(2001)提供了一个全面的介绍。 因为广义线性模型是以“线性预测器”Xβ的形式详细说明的,所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外,基本模型公式与线性模型公式基本相同。当然,如果恒等函数被选择作为链接以及正态分布,那么普通线性模型将作为特例被恢复。 然而,泛化是以某种成本为代价的:现在的模型拟合必须要迭代完成,而且用于推理的分布结果是近似的,并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前,请考虑几个简单的例子。 μi=cexp(bt i), 例1:在疾病流行的早期阶段,新病例的发生率通常会随着时间以指数方式增加。因此,如果μi是第ti天的新病例的预期数量,则该形式的模型为 请注意,“广义”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。 可能是合适的,其中c和b是未知参数。通过使用对数链路,这样的模型可以变成GLM形式 log(μi)=log(c)+bt i=β0+t iβ1 (根据β0=logc和β1=b的定义)。请注意,模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量,因为这是一个计数,所以泊松分布可能是一个合理的可以尝试的分布。因此,针对这种情况的GLM使用泊松反应分布,对数链路和线性预测器β0+tiβ1。 , 例2:狩猎动物捕获猎物的速度yi往往随着猎物密度xi的增加而增加,但最终会趋于平衡,当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是

广义线性模型

xx线性模型 一、xx模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution: 特殊的指数族一员;在0点有很大的概率并且在非0点有合适的分布;方差与均值的p次幂成正比 4.GLM的结构: 连接函数、设计矩阵、预估变量、offset变量每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重 二、构建GLM模型 1.单因子分析: 无法反映变量之间的关系,GLM可以排除这类关系,得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应: 模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms: 当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3.变量估计:

通过逆矩阵相关方法求解 三、分析因子的显著性 1.chi-squared、F-statistics、AIC 等统计量 (1)偏离: 比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。 (2)偏离度调整 (3)chi-squared 统计量: 模型的自由度定义为观测的数量减去变量的数量 Nested models: 可以利用chi-squared来检验偏离度的变化 (4)F-statistics (5)AIC: 主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined

广义多元线性模型

数据分析基础 广义多元线性回归方程的构建

【文献回顾】 这是一篇2014年发表在新英格兰医学杂志(影响因子55.8分)的论文[1],研究妊娠期是否能用抗抑郁药,结果表明妊娠初期使用抗抑郁药不显著增加新生儿心脏畸形。(CONCLUSIONS The results of this large, population-based cohort study suggested no substantial increase in the risk of cardiac malformations attributable to antidepressant use during the first trimester. ) 文章统计学方法部分开篇写到: 统计学方法里写到的独立作用的风险(absolute risk)是什么?是如何通过回归分析(Logistic-regression analysis)得出的?为什么要这样做?是怎么用软件实现的? 上述问题,将在本篇中讲解。

这里指的多元线性模型,是广义线性模型,应变量(Y)的分布类 型可以是:正态分布(gaussian)、两分类分布(binomial)、泊松分布、负二项分布等,不同的分布类型对应不同的联系函数f(Y)。 f(Y)=β0+β1*X1+β2*X2+β3*X3+β4*X4+…… 【概念】 广义线性模型有两大常用用途: 1.危险因素分析:评价某危险因素(X)对结果变量(Y)有没有独立 作用及独立作用的大小的是多少。(最常见) 2.建立预测模型:从一系列 X1、X2、… 中挑选出一个最佳预测模型 预测Y的发生。 需要注意的是用途不同,构建模型的方法完全不同,对模型的解读完全不同。很多人对此不甚理解,常常用一种逐步回归方法构 建危险因素分析的模型,对结果也不知道怎么解读,有很多混淆。 这个教程的目的旨在帮助大家理清这个问题。 【用途】 结果变量(Y)危险因素(X)效应测量统计检验 连续性, 如收缩压分类型, 如是否吸烟 吸烟者与不吸烟者收缩压的差(β) 及其标准误 H0:β=0 连续性, 如收缩压连续性, 如体重指数 BMI每增加一个单位SBP增加多少 (β)及其标准误 H0:β=0 分类型, 如是否高血压分类型, 如是否吸烟 吸烟者与不吸烟者高血压发生率比 (OR)及其95% 可信区间 H0:OR=1 分类型, 如是否高血压连续性, 如体重指数 BMI每增加一个单位高血压发生率比 (OR)及其95% 可信区间 H0:OR=1 流行病学分析是为了确定危险因素与结果变量之间是否有联系,危险因素对结果变量的作用大小(即效应)。 表1 效应的估计和结果变量与危险因素的类型

相关主题