搜档网
当前位置:搜档网 › 基于广义线性混合模型的经验费率厘定

基于广义线性混合模型的经验费率厘定

基于广义线性混合模型的经验费率厘定

作者:康萌萌, KANG Meng-meng

作者单位:中国人民大学,统计学院,北京,100872

刊名:

统计与信息论坛

英文刊名:STATISTICS & INFORMATION FORUM

年,卷(期):2009,24(7)

参考文献(13条)

1.Nelder J A;Verrall R J Credibility theory and generalized linear models 1997(01)

2.McCulloch C E;Searle S R Generalized,linear and mixed models 2001

3.Frees E W;Young V R;Luo Y A longitudinal data analysis interpretation of credibility models 1999(03)

4.Demidenko E Mixed models:theory and applications 2004

5.Verbeke G;Molenberghs G Linear mixed models for longitudinal data 2000

https://www.sodocs.net/doc/5818753138.html,ird N M;Ware J H Random-effects models for longitudinal data 1982(04)

7.Zeger S L;Liang K Y Longitudinal data analysis for discrete and continuous outcomes 1986(01)

8.Haberman S;Renshaw A E Generalized linear models and actuarial science 1996(04)

9.王济川;谢海义;姜宝法多层统计分析模型-方法与应用 2008

10.卢志义;刘乐平广义线性模型在非寿险精算中的应用及其研究进展[期刊论文]-统计与信息论坛 2007(07)

11.贺宝龙;唐湘晋广义线性混合模型在信度理论中的应用 2008(20)

12.Antonioand J K;Beirlant Actuarial statistics with generalized linear mixed models[外文期刊] 2007(01)

13.Frees E W;Young V R;Luo Y Case studies using panel data models 2001(04)

本文链接:https://www.sodocs.net/doc/5818753138.html,/Periodical_tjyxxlt200907010.aspx

广义线性模型与汽车保险费率厘定

广义线性模型与汽车保险费率厘定 胡三明 西南财经大学保险学院 【摘要】本文回顾了汽车保险费率厘定模型的发展历程,并对广义线性模型从建模、统计分析、模型的选择与诊断等方面进行了比较系统的介绍,最后通过一个汽车保险的实例来介绍其在分类费率厘定过程中具体运用,具有较强的实践意义。 【关键词】广义线性模型分类费率厘定 一、导论 对于传统费率厘定模型,精算师过于依赖简单的单因素分析法和双因素分析法,其中,单因素分析常受到费率因子间相关性的影响而被扭曲,同时也没有考虑到因子间独立性的影响。对此,精算师在六十年代探索出了迭代模型——最小偏差法,使其得到重大的改进,但仍然没有形成完整的统计框架。最小偏差法试图通过迭代的方法来求出一系列方程的最优解,但它无法测试一个特定的变量的影响效果,同时也不能提供可靠的参数估计范围。 广义线性模型(GLM)是传统线性模型以及许多最常见的最小偏差法的延伸,从技术角度看,比标准的迭代模型更有效率,它提供的统计诊断功能,有助于挑选重要的变量并且确认模型的假设条件。如今,广义线性模型在欧盟和许多其他市场,被公认为是对私家车和其他私人业务以及小额的团体业务进行定价的行业标准模型。 广义线性模型的个别特例很早就已出现,早在1919年就曾被Fisher使用过,二十世纪四五十年代,Berkson,Dyke和Patterson等人使用过最著名的Logistic模型,1972年Nelder和Wedderburn在一篇论文中率先使用广义线性模型一词,此后相关研究工作逐渐增加,1983年McCullagh和Nelder出版了系统的论著,并于1989年再版。 二、广义线性模型 (一)、线性模型 一个传统的线性模型具有如下形式: ' i i y xβε =+i 其中 i y是响应变量的第i次观测, i x是协变量,表示第i 次观测数据,未知系数向量β通过对数据i y的最小二乘拟合估计出来。假定εi是均值为零,方差为常数的独立正态随机变量。对于一般的线性 回归模型(LM)' i i y xβε =+i可以分解为三个要素:LM1:随机要素,即Y服从正态分布, () i E y μ=; LM2:系统要素,' i x ηβ =; LM3:连接要素,ημ =; (二)、广义线性模型 尽管传统的线性模型广泛地应用于统计数据分析中,但它却不适合处理如下几类问题: (1) 将数据分布假设为正态分布并不合理; (2) 当数据的均值被限制在一定的范围内时,传 统的线性模型就不适用了,因为线性预测值' i xβ可以取任意值; (3) 假定数据的方差对于所有观测都是一个常数并不现实。 广义线性模型扩展了传统的线性模型,因此它适用于更广范围的数据分析问题。一个广义线性模型包括以下组成部分: GLM1:随机要素,Y服从比正态分布更一般的分布,即指数族分布; GLM2:系统要素同LM2,即保持线性结构;

广义线性模型

广义线性模型 一、广义模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution:特殊的指数指数族一员;在0点有很大的 概率并且在非0点有合适的分布;方差与均值的p次幂成正比4.GLM的结构:连接函数、设计矩阵、预估变量、offset变量 每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重 二、构建GLM模型 1.单因子分析:无法反映变量之间的关系,GLM可以排除这类关系, 得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应:模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms:当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3. 变量估计:通过逆矩阵相关方法求解 三、分析因子的显著性 1. chi-squared、F-statistics、AIC 等统计量

(1)偏离:比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。 (2)偏离度调整 (3)chi-squared 统计量:模型的自由度定义为观测的数量减去变量的数量 Nested models:可以利用chi-squared来检验偏离度的变化 (4) F-statistics (5)AIC:主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined 3.其他方法 (1)与预期值相比:每种水平下相对值的变动幅度,同时考虑每个水平下得标准偏差,其值的 (2)Comparison with time:model fit line;variation的大小应该与exposure的大小相反 不同渠道数据收集上的差异可能导致不一致的发生四、测试模型的适当性

混合线性模型软件包的介绍

混合线性模型软件包的介绍 混合线性模型是一般线性模型的延伸和拓展,在作物、林木、动物、水产育种和科研中应用广泛。相对于一般线性模型,它能处理缺失值和不平衡数据,可以支持数据的方差不齐次和不独立,使得数据分析更准确和高效。分析混合线性模型的软件很多,这里将其分为R包和非R包。 R包: nlme:是一个在S-Plus应用广泛的混线性模型包,后来转换到R平台上,对于镶嵌结构(nested)的随机因子定义简单,但对于交叉的随机因子(crossed)定义困难。具有多个功能,比如lme应用于线性混合模型,nlme应用于非线性混合模型。可以定义复杂的方差结构,不支持广义线性混合模型(GLMM)。 lme4:是nlme的进一步发展,比nlme运行速度要快,支持GLMM,但很难处理交叉的随机因子。 MCMCglmm:用马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)的方法拟合模型,贝叶斯先验分布,可以定义一些复杂的方差结构(heterogeneous yes,AR1 no)。 asreml:是ASReml软件的R版本,运算速度快,支持复杂的模型(G矩阵和R矩阵),支持系谱信息和多性状分析,在动物、作物、林木、水产育种和科研中应用广范。 glmmADMB:是ADMB软件的R版本,很灵活,但是运行速度很慢。 非R包: ASReml 商业软件:有单机版(Win、Linux、Mac)和R版(ASReml-R),也有窗口化的版本(GenStat),应用 稀疏矩阵和Ai算法,速度很快,广泛应用于植物和动物育种,支持随机因子的矩阵定义(G)和残差的矩阵定义(R),Splines也被很好的整合,对于广义线性模型,应用的是PQL方法。 ADMB:自动模型微分(Automatic Differentiation Model Builder),主要应用在森林、水产和野生动物中,开始 时是个商业软件,现在开源了,支持非线性混合模型。 SAS 商业软件: ?PROC MIXED:一般线性混合模型(LMM),应用广泛,但是速度比较慢。 ?PROC GLIMMIX:增加了广义线性模型(GLMM),它现在支持了Laplace approximation和adaptive Gaussian quadrature方法,但对于复杂的模型,用的还是PQL方法。 ?HPMIXED:是MIXED的改进版,在速度上有明显的提升,但是支持的模型较少。 ?PROC NLMIXED:支持非线性混合模型 功能介绍:

广义线性模型

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸, 它是总体均值通过一个非线性连接 函数依赖于线性预测值, 有许多广泛应用的统计模型都属于广义线性模型,其中 包括正态误差的经典性模型, 二元数据的对数和概率单位模型以及多项数据的对 数线性模型, 还有其它许多有用的统计模型,如果选择合适的连接函数和响应概 率分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y ? XT? ??
其中, yi ?Y ? { y1 , y2 ,?, yn } 是因变量的第 i 次观测, xi ? X ? {x1 , x2 ,?, xn } 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 ? 可以通过对 Y 的 最小二乘拟合估计, ? 是均值为零,方差为常数的随机变量。 模型的几个基本假设: ? ? ? ? ? ? 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差 {? i } ~ N (0,? ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型, 是为了克服一般线性模型的缺点出现的,是一般线性模型的 推广。 ? 广义线性模型在两个方面对一般线性模型进行了推广: ? 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型 中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。 ? 一般线性模型中,自变量的线性预测值 ? 就是因变量的估计值 ? ,而广 义线性模型中,自变量的线性预测值 ? 是因变量的函数估计值 g ( ? ) 。 ? 广义线性模型包括一下组成部分: ? 线性部分正好是一般线性模型所定义的:
?i ? ?0 ? ?1 x1i ? ?2 x2i ? ? ? ?m xmi
? 连接函数( link function):
?i ? g (?i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的估计值 ? ”与“自变量的线性预测值 ? ”的作用 。在经典的线性模型中,“Y 的估计值”与“自变量的线性预测”是一回事。 ? 广义线性模型建立 通过对数据选定因变量和自变量, 以及选择合适的连接函数和响应概率分布, 既可以建立一个广义线性模型。例如: ? 一般线性模型 因变量:连续变量 分布:正态分布 连接函数: ? ? ? ? Logistic 回归模型 因变量:(0,1) 分布:二项分布 连接函数: ? ? log(
?
1? ? )
? Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

【原创】R语言用Rshiny探索广义线性混合模型(GLMM)和线性混合模型(LMM)数据分析报告(附代码数据)

咨询QQ:3025393450 有问题百度搜索“”就可以了 欢迎登陆官网:https://www.sodocs.net/doc/5818753138.html,/datablog R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)数据分析报告 随着lme4软件包的改进,使用广义线性混合模型(GLMM)和线性混合模型(LMM)的工作变得越来越容易。当我们发现自己在工作中越来越多地使用这些模型时,我们(作者)开发了一套工具,用于简化和加快与的merMod对象进行交互的常见任务lme4。该软件包提供了那些工具。 安装 # development version library(devtools) install_github("jknowles/merTools") # CRAN version -- coming soon install.packages("merTools")

咨询QQ:3025393450 有问题百度搜索“”就可以了 欢迎登陆官网:https://www.sodocs.net/doc/5818753138.html,/datablog Rshiny的应用程序和演示 演示此应用程序功能的最简单方法是使用捆绑的Shiny应用程序,该应用程序会在此处启动许多指标以帮助探索模型。去做这个: devtools::install_github("jknowles/merTools") library(merTools) m1 <- lmer(y ~ service + lectage + studage + (1|d) + (1|s), data=InstEval) shinyMer(m1, simData = InstEval[1:100, ]) # just try the first 100 rows of data 在第一个选项卡上,该功能提供了用户选择的数据的预测间隔,这些预测间隔是使用predictInterval包中的功能计算得出的。通过从固定效应和随机效应项的模拟分布中进行采

半参数混合效应模型的稳健估计(精)

半参数混合效应模型的稳健估计 【摘要】:人们利用实际观测数据作统计推断时,一些假定是必不可少的。然而这些假定与实际情况几乎不可能完全相符,只是实际情况一种近似描述。人们通常希望所假定的统计模型与实际数据之间微小的差异不会对最终结论产生大的影响,但是实际情况并非人们所希望的那样。最近几十年来,人们发现假定模型与实际数据之间看上去微小的偏离会对很多常用的统计方法产生很大的影响。因此,开始研究稳健的统计方法。所谓“稳健的统计方法”简单的说就是指那些对模型假定与实际数据之间存在的微小偏差不敏感的统计方法。或者说模型假定与实际数据之间的微小偏差对这些方法影响不大。八十年代中期,Green等(1985在研究农业实验和Engle等(1986在研究气候条件对电力需求的影响这两个实际问题时分别独立地提出了一种重要的统计模型,即半参数统计模型。在此基础上又发展到半参数混合效应模型。半参数混合效应模型,既含有固定效应,又含有随机效应;既含有参数部分,又含有非参数部分,综合了参数模型,非参数模型以及混合效应模型的诸多优点,具有更大的灵活性,也更加接近现实,充分利用了数据中的信息。而广义半参数混合效应模型则是半参数混合效应模型与广义线性模型的自然推广。本论文针对半参数混合效应模型,研究了它的稳健统计推断问题。现将主要内容概述如下:1.第一章首先简要地介绍了半参数混合效应模型;其次,介绍了稳健统计的背景和研究现状;并介绍了广义估计方程的背景和研究现状;最后, 介绍了本文的主要工作。2.第二章主要研究了广义半参数混合效应模型均值部分的稳健估计问题,包括回归参数和非参数函数的稳健估计。主要内容包括:首先基于B-样条的非参数方法,构造了带有条件数学期望的稳健估计方程;第二,利用MonteCarloMarkovChain(MCMC方法从随机效应后验分布中抽取样本来估计稳健估计方程中的条件期望;第三,给出了稳健估计的渐近性质;第四,通过随机模拟检验稳健估计的有效性,并在正态模型下与He,FungZhu(2005中提出的稳健估计进行了比较,发现在数据中存在异常点时,该模型下我们研究的稳健估计具有更高的效率。最后,通过对四个实际例子的分析说明了方法的可行性。3.第三章主要研究了响应变量为连续变量的半参数模型下协方差参数的稳健估计。首先,构造了均值分量和协

一般混合线性模型SAS的MIXED过程实现_混合线性模型及其SAS软件实现_一_

一般混合线性模型SAS的M IXED过程实现 ———混合线性模型及其SAS软件实现(一) 山西医科大学卫生统计教研室(030001) 张岩波 何大卫 刘桂芬 王琳娜 郭明英 【提 要】 目的 系统结构数据在医学领域广泛存在,其统计分析方法各异,可统称之为混合模型。本文研讨其实现方法。方法 以多水平模型例证一般混合线性模型的SAS M IX ED实现过程。结果 以JSP数据为实例显示SAS的拟合结果与M Ln相一致。结论 SAS M IXED可灵活地拟合包括多水平模型的各类混合模型。 【关键词】 系统结构数据 混合线性模型 多水平模型 M IX ED过程 近些年,国内医学统计学界对系统结构数据有了较多的认识,并进行了大量实效的研究和应用。徐勇勇教授对系统结构数据做了全面的表述〔1〕。由于常规的统计方法分析这类数据时忽略了误差结构,因此分析方法多采用以下模型:混合线性模型(Mixed lin-ear,M LM)、分层线性模型(Hierarchical linear, H LM)、广义线性混合模型(Generalized linear mixed, GLM M)、分层广义线性模型(Hierarchical generalized linear,HGLM)、多水平模型(Multilevel,M LM)、方差成分模型(Variance components,VCM)、随机系数模型(Random coefficients,RCM)等,以下且统称之为混合模型。分析模型相应的软件有自行开发的软件(如陈长生博士针对重复测量数据自行开发的REP软件)及国外开发的专业软件,如M Ln(或M lw iN)软件,其他还有BUGS、H LM、VARCL等软件。由于至今各种方法仍处于发展完善阶段,加之工具软件的限制,大大制约了此类方法的实际应用。目前国内SAS软件已相当普及,其新增的M IXED模块及宏程序GLIM-M IX、NLINM IX可以有效、灵活地拟合各类混合模型,无疑为上述数据提供了有力的分析工具〔2,3〕。本文以多水平模型例证M IXED模块对一般混合线性模型的拟合。 模型简述 混合线性模型泛指一类模型,实际上许多模型的称谓不同,而其本质是一致的。混合线性模型形式一般可表现为: y=Xβ+Zγ+ε 式中y、Xβ意义同一般线性模型,γ为高水平的随机向量估计值,Z为相应的设计矩阵,随机误差向量ε并不要求一般线性模型独立、等方差的假设,γ、ε期望为0,方差分别为G、R,因此y的方差为V=ZGZ'+R。当R=σ2I,Z=0时,混合模型退化为标准的一般线性模型。 模型中就是否引入随机系数又可称之为方差成分模型和随机系数模型。因为在模型中同时包含了固定效应和随机效应,因此称之为混合模型。 模型估计方法很多,具代表性的有:M Ln采用It-erative(and Restricted iterative)generalized least squares(IGLS/RIGLS Goldstein1995)及新增的boot-strap与Markov chain Monte Carlo(M CM C Best et al. 1996)估计方法;SAS M IXED过程采用了Maximum (and Restricted)likelihood(M L/REM L)有ridge-sta-bilized New ton-Raphson迭代法和EM算法、非迭代的M IVQUE0法及由PRIOR语句实现的BAYES方法等。 M IXED的基本语法 M IXED模块可看作GLM广义化的模块,可以拟合更多的普通标准线性模型及混合模型。二者有着同样的CLASS、MODEL、CONTRAST、ESTIMATE、LSMEANS、RANDOM、REPEATED等语句。但其中某些语句如RANDOM、REPEATED等意义有所不同。 以含一个自变量(X)的多水平模型为例,数据为学校———学生两水平结构,其语句为: Proc m ixed;  class school;  model y=x/s;  random intercept/sub=school ty pe=un; run; 语句中C LASS声明,表示高水平的变量为分类变量,便于下一步对数据分层;MODEL语句中s即SO-LU TION要求打印固定效应估计值;RANDOM指定 本文为山西省青年自然基金(20001019)

广义线性模型

广义线性模型

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸,它是总体均值通过一个非线性连 接函数依赖于线性预测值,有许多广泛应用的统计模型都属于广义线性模型, 其中包括正态误差的经典性模型,二元数据的对数和概率单位模型以及多项数 据的对数线性模型,还有其它许多有用的统计模型,如果选择合适的连接函数 和响应概率分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y XT
其中, yi Y {y1, y2,L , yn} 是因变量的第 i 次观测, xi X {x1, x2,L , xn} 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 可以通过对Y 的 最小二乘拟合估计, 是均值为零,方差为常数的随机变量。
模型的几个基本假设: 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差{i} ~ N(0, ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型,是为了克服一般线性模型的缺点出现的,是一般线性模型 的推广。
广义线性模型在两个方面对一般线性模型进行了推广: 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型
中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。
一般线性模型中,自变量的线性预测值 就是因变量的估计值 ,而广
义线性模型中,自变量的线性预测值 是因变量的函数估计值 g() 。
广义线性模型包括一下组成部分: 线性部分正好是一般线性模型所定义的:
i 0 1x1i 2 x2i L m xmi
连接函数( link function):
i g(i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y
的估计值 ”与“自变量的线性预测值 ”的作用 。在经典的线性模型中,“Y
的估计值”与“自变量的线性预测”是一回事。 广义线性模型建立 通过对数据选定因变量和自变量,以及选择合适的连接函数和响应概率分
布,既可以建立一个广义线性模型。例如: 一般线性模型
因变量:连续变量 分布:正态分布
连接函数:
Logistic 回归模型 因变量:(0,1) 分布:二项分布 连接函数: log( )
1 Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

广义线性模型

xx线性模型 一、xx模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution: 特殊的指数族一员;在0点有很大的概率并且在非0点有合适的分布;方差与均值的p次幂成正比 4.GLM的结构: 连接函数、设计矩阵、预估变量、offset变量每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重 二、构建GLM模型 1.单因子分析: 无法反映变量之间的关系,GLM可以排除这类关系,得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应: 模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms: 当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3.变量估计:

通过逆矩阵相关方法求解 三、分析因子的显著性 1.chi-squared、F-statistics、AIC 等统计量 (1)偏离: 比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。 (2)偏离度调整 (3)chi-squared 统计量: 模型的自由度定义为观测的数量减去变量的数量 Nested models: 可以利用chi-squared来检验偏离度的变化 (4)F-statistics (5)AIC: 主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined

广义多元线性模型

数据分析基础 广义多元线性回归方程的构建

【文献回顾】 这是一篇2014年发表在新英格兰医学杂志(影响因子55.8分)的论文[1],研究妊娠期是否能用抗抑郁药,结果表明妊娠初期使用抗抑郁药不显著增加新生儿心脏畸形。(CONCLUSIONS The results of this large, population-based cohort study suggested no substantial increase in the risk of cardiac malformations attributable to antidepressant use during the first trimester. ) 文章统计学方法部分开篇写到: 统计学方法里写到的独立作用的风险(absolute risk)是什么?是如何通过回归分析(Logistic-regression analysis)得出的?为什么要这样做?是怎么用软件实现的? 上述问题,将在本篇中讲解。

这里指的多元线性模型,是广义线性模型,应变量(Y)的分布类 型可以是:正态分布(gaussian)、两分类分布(binomial)、泊松分布、负二项分布等,不同的分布类型对应不同的联系函数f(Y)。 f(Y)=β0+β1*X1+β2*X2+β3*X3+β4*X4+…… 【概念】 广义线性模型有两大常用用途: 1.危险因素分析:评价某危险因素(X)对结果变量(Y)有没有独立 作用及独立作用的大小的是多少。(最常见) 2.建立预测模型:从一系列 X1、X2、… 中挑选出一个最佳预测模型 预测Y的发生。 需要注意的是用途不同,构建模型的方法完全不同,对模型的解读完全不同。很多人对此不甚理解,常常用一种逐步回归方法构 建危险因素分析的模型,对结果也不知道怎么解读,有很多混淆。 这个教程的目的旨在帮助大家理清这个问题。 【用途】 结果变量(Y)危险因素(X)效应测量统计检验 连续性, 如收缩压分类型, 如是否吸烟 吸烟者与不吸烟者收缩压的差(β) 及其标准误 H0:β=0 连续性, 如收缩压连续性, 如体重指数 BMI每增加一个单位SBP增加多少 (β)及其标准误 H0:β=0 分类型, 如是否高血压分类型, 如是否吸烟 吸烟者与不吸烟者高血压发生率比 (OR)及其95% 可信区间 H0:OR=1 分类型, 如是否高血压连续性, 如体重指数 BMI每增加一个单位高血压发生率比 (OR)及其95% 可信区间 H0:OR=1 流行病学分析是为了确定危险因素与结果变量之间是否有联系,危险因素对结果变量的作用大小(即效应)。 表1 效应的估计和结果变量与危险因素的类型

广义线性模型()

广义线性模型 广义线性模型*(Nelder和Wedderburn,1972)除了正态分布,也允许反应分布,以及模型结构中的一定程度的非线性。GLM具有基本结构 g(μi)=X iβ, 其中μi≡E(Yi),g是光滑单调'链接函数',Xi是模型矩阵的第i行,X和β是未知参数的向量。此外,GLM通常会做出Yi是独立的和Yi服从一些指数族分布的假设。 指数族分布包括许多对实际建模有用的分布,如泊松分布,二项分布,伽马分布和正态分布。GLM的综合参考文献是McCullagh和Nelder(1989),而Dobson(2001)提供了一个全面的介绍。 因为广义线性模型是以“线性预测器”Xβ的形式详细说明的,所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外,基本模型公式与线性模型公式基本相同。当然,如果恒等函数被选择作为链接以及正态分布,那么普通线性模型将作为特例被恢复。 然而,泛化是以某种成本为代价的:现在的模型拟合必须要迭代完成,而且用于推理的分布结果是近似的,并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前,请考虑几个简单的例子。 μi=cexp(bt i), 例1:在疾病流行的早期阶段,新病例的发生率通常会随着时间以指数方式增加。因此,如果μi是第ti天的新病例的预期数量,则该形式的模型为 请注意,“广义”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。 可能是合适的,其中c和b是未知参数。通过使用对数链路,这样的模型可以变成GLM形式 log(μi)=log(c)+bt i=β0+t iβ1 (根据β0=logc和β1=b的定义)。请注意,模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量,因为这是一个计数,所以泊松分布可能是一个合理的可以尝试的分布。因此,针对这种情况的GLM使用泊松反应分布,对数链路和线性预测器β0+tiβ1。 , 例2:狩猎动物捕获猎物的速度yi往往随着猎物密度xi的增加而增加,但最终会趋于平衡,当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是

相关主题