搜档网
当前位置:搜档网 › 广义线性模型与汽车保险费率厘定

广义线性模型与汽车保险费率厘定

广义线性模型与汽车保险费率厘定

胡三明

西南财经大学保险学院

【摘 要】本文回顾了汽车保险费率厘定模型的发展历程,并对广义线性模型从建模、统计分析、模型的选择与诊断等方面进行了比较系统的介绍,最后通过一个汽车保险的实例来介绍其在分类费率厘定过程中具体运用,具有较强的实践意义。
【关键词】广义线性模型 分类费率厘定

一、导论
对于传统费率厘定模型,精算师过于依赖简单的单因素分析法和双因素分析法,其中,单因素分析常受到费率因子间相关性的影响而被扭曲,同时也没有考虑到因子间独立性的影响。对此,精算师在六十年代探索出了迭代模型——最小偏差法,使其得到重大的改进,但仍然没有形成完整的统计框架。最小偏差法试图通过迭代的方法来求出一系列方程的最优解,但它无法测试一个特定的变量的影响效果,同时也不能提供可靠的参数估计范围。
广义线性模型(GLM)是传统线性模型以及许多最常见的最小偏差法的延伸,从技术角度看,比标准的迭代模型更有效率,它提供的统计诊断功能,有助于挑选重要的变量并且确认模型的假设条件。如今,广义线性模型在欧盟和许多其他市场,被公认为是对私家车和其他私人业务以及小额的团体业务进行定价的行业标准模型。
广义线性模型的个别特例很早就已出现,早在1919年就曾被Fisher使用过,二十世纪四五十年代,Berkson,Dyke和Patterson等人使用过最著名的Logistic模型,1972年Nelder和Wedderburn在一篇论文中率先使用广义线性模型一词,此后相关研究工作逐渐增加,1983年McCullagh和Nelder出版了系统的论著,并于1989年再版。

二、广义线性模型
(一)、线性模型
一个传统的线性模型具有如下形式:
EMBED Equation.DSMT4 i
其中 EMBED Equation.DSMT4 是响应变量的第i次观测, EMBED Equation.DSMT4 是协变量,表示第 i 次观测数据,未知系数向量 EMBED Equation.DSMT4 通过对数据 EMBED Equation.DSMT4 的最小二乘拟合估计出来。假定 EMBED Equation.DSMT4 i是均值为零,方差为常数的独立正态随机变量。对于一般的线性回归模型(LM) EMBED Equation.DSMT4 i可以分解为三个要素:
LM1:随机要素,即Y服从正态分布, EMBED Equation.DSMT4 ;
LM2:系统要素, EMBED Equation.DSMT4 ;
LM3:连接要素, EMBED Equation.DSMT4 ;
(二)、广义线性模型
尽管传统的线性模型广泛地应用于统计数据分析中,但它却不适合处理如下几类问题:
(1) 将数据分布假设为正态分布并不合理;
(2) 当数据的均值被限制在一定的范围内时,传统的线性模型就不适用了,因为线性预测值 EM

BED Equation.DSMT4 可以取任意值;
(3) 假定数据的方差对于所有观测都是一个常数并不现实。
广义线性模型扩展了传统的线性模型,因此它适用于更广范围的数据分析问题。一个广义线性模型包括以下组成部分:
GLM1:随机要素,Y服从比正态分布更一般的分布,即指数族分布;
GLM2:系统要素同LM2,即保持线性结构;
GLM3:连接要素, EMBED Equation.DSMT4 其中g为严格单调可微的函数,称为连接函数。
GLM的通常表述如下:
EMBED Equation.DSMT4
EMBED Equation.DSMT4
其中: EMBED Equation.DSMT4 :响应变量向量; EMBED Equation.DSMT4 :连接函数; EMBED Equation.DSMT4 :自变量矩阵; EMBED Equation.DSMT4 :待估计的参数向量; EMBED Equation.DSMT4 :干扰项向量; EMBED Equation.DSMT4 :方差函数 EMBED Equation.DSMT4 的散布参数; EMBED Equation.DSMT4 :方差函数; EMBED Equation.DSMT4 :信度或权重; EMBED Equation.DSMT4 、 EMBED Equation.DSMT4 、 EMBED Equation.DSMT4 和 EMBED Equation.DSMT4 依赖于对已知数据的处理, EMBED Equation.DSMT4 和 EMBED Equation.DSMT4 则根据事先设定的模型得出,而 EMBED Equation.DSMT4 或为已知,或为估计值。
1、指数族分布
设Y为随机变量,若其密度函数为:
EMBED Equation.DSMT4
其中a( )、b( )、c( )为已知函数, EMBED Equation.DSMT4 称为典型参数, EMBED Equation.DSMT4 称为散度参数。由Y的对数似然可以计算得:
EMBED Equation.DSMT4
EMBED Equation.DSMT4
Y的方差是 EMBED Equation.DSMT4 的二阶导数与 EMBED Equation.DSMT4 的积, EMBED Equation.DSMT4 只依赖于典型参数,因而只依赖于 EMBED Equation.DSMT4 ,所以,一般记 EMBED Equation.DSMT4 的二阶导数为 EMBED Equation.DSMT4 ,并称 EMBED Equation.DSMT4 为方差函数。此外,一般取 EMBED Equation.DSMT4 , EMBED Equation.DSMT4 称为权数。
对于一个指数族分布,当 EMBED Equation.DSMT4 确定后其分布形式即确定了,所以只要方差函数V确定了,对应的指数族的形式(如果存在)也就确定了。常见的几种分布都属于指数族,如下所示:



表一、常见指数族分布参数表
分布形式 参数 EMBED Equation.DSMT4 EMBED Equation.DSMT4 EMBED Equation.DSMT4 Normal EMBED Equation.DSMT4 EMBED Equation.DSMT4 EMBED Equation.DSMT4 1 Poisson EMBED Equation.DSMT4 1 EMBED Equation.DSMT4 EMBED Equation.DSMT4 Gamma EMBED Equation.DSMT4 EMBED Equation.DSMT4 EMBED Equation.DSMT4 EMBED Equation.DSMT4 Binomial EMBED Equation.DSMT4 EMBED Equation.DSMT4 EMBED Equation.DSMT4 EMBED Equation.DSMT4 Inverse Gaussian EMBED Eq

uation.DSMT4 EMBED Equation.DSMT4 EMBED Equation.DSMT4 EMBED Equation.DSMT4
2、连接函数
连接函数是用来描述系统要素与随机要素期望值之间关系的函数形式。作为连接函数必须严格单调且充分光滑,即有足够阶数的导数。
EMBED Equation.DSMT4
EMBED Equation.DSMT4 (由于: EMBED Equation.DSMT4 )

当 EMBED Equation.DSMT4 时,上式可以简化为
EMBED Equation.DSMT4

我们称之为自然连接函数,其最重要的优点在于它使广义线性模型下统计推断的大样本理论变得更易于处理。当然,实际处理过程中,连接函数的选取主要取决于问题本身。
3、参数估计
设 EMBED Equation.DSMT4 , EMBED Equation.DSMT4 ,…, EMBED Equation.DSMT4 独立同分布,服从指数族分布:
EMBED Equation.DSMT4

则( EMBED Equation.DSMT4 , EMBED Equation.DSMT4 ,…, EMBED Equation.DSMT4 )的对数似然函数为:

EMBED Equation.DSMT4
EMBED Equation.DSMT4
由于:
EMBED Equation.DSMT4
则: EMBED Equation.DSMT4
EMBED Equation.DSMT4

4、假设检验
同一般回归分析一样,广义线性模型的选择以及解释变量的显著性检验问题都可化为线性假设检验:
原假设 EMBED Equation.DSMT4 EMBED Equation.DSMT4 备择假设 EMBED Equation.DSMT4 EMBED Equation.DSMT4 ,其中 EMBED Equation.DSMT4 为P维, C为已知的r×p行满秩常数矩阵。
(1)、Wald检验
检验统计量为:
EMBED Equation.DSMT4
这里, EMBED Equation.DSMT4 为 EMBED Equation.DSMT4 的极大似然估计, EMBED Equation.DSMT4 为 EMBED Equation.DSMT4 的估计。
当原假设成立时,即 EMBED Equation.DSMT4 ,带入 EMBED Equation.DSMT4 ,得:
EMBED Equation.DSMT4
于是
EMBED Equation.DSMT4 ,因此,当 EMBED Equation.DSMT4 > EMBED Equation.DSMT4 时,拒绝原假设。
(2)、约束检验
以 EMBED Equation.DSMT4 记为原假设 EMBED Equation.DSMT4 约束条件下的MLE(极大似然估计)。
构建统计量: EMBED Equation.DSMT4
当 EMBED Equation.DSMT4 大于某个常数时,拒绝原假设。
此检验的直观背景如下:因为 EMBED Equation.DSMT4 ,若原假设成立,则 EMBED Equation.DSMT4 和 EMBED Equation.DSMT4 均为 EMBED Equation.DSMT4 的估计,理应比较接近,因此, EMBED Equation.DSMT4 ,这时 EMBED Equation.DSMT4 取很小的值。反之, EMBED Equation.DSMT4 取较大的值。可以证明,当原假设成立,且满足一定的条件时,有:
EMBED Equation.DSMT4 , EMBED Equation.DSMT4
因此,上文所提及的常数可取 EMBED Equation.DSMT4 , EMBED Equation.DSMT4 为给定的置信水平。
(3)、拟似然比

检验
以 EMBED Equation.DSMT4 记为对数似然函数,则 EMBED Equation.DSMT4 和 EMBED Equation.DSMT4 分别为 EMBED Equation.DSMT4 的不受任何约束的MLE以及受到原假设约束的MLE。检验统计量为:
EMBED Equation.DSMT4
因为 EMBED Equation.DSMT4 为 EMBED Equation.DSMT4 的最大值,总有 EMBED Equation.DSMT4 >0。若原假设成立,则 EMBED Equation.DSMT4 和 EMBED Equation.DSMT4 均为 EMBED Equation.DSMT4 的相合估计,理应比较接近, EMBED Equation.DSMT4 倾向于小;反之, EMBED Equation.DSMT4 倾向于大。可以证明,当原假设成立,有: EMBED Equation.DSMT4
因此,上文所提及的常数可取 EMBED Equation.DSMT4 > EMBED Equation.DSMT4 为检验的否定域。 EMBED Equation.DSMT4 为给定的置信水平。

三、应用探讨
1、数据情况说明
下表是某保险公司汽车保险的历史理赔资料 ,从表中我们不难看出,影响该公司汽车保险费用的因素主要有三类,分别是:被保险人的年龄、车型和车龄。其中被保险人的年龄又细分为17-20、21-24、25-29、30-34、35-39、40-49、50-59和60+八类;车型具体可分为A、B、C和D四种;车龄同样也分为0-3、4-7、8-9和10+四个类别。


2、模型选择
我们运用SAS的Genmod程序对上述数据构建广义线性模型,分别用正态(Normal)分布、伽码(Gamma)分布和逆高斯(Inverse Gaussian)分布,连接函数均为对数连接(LOG)。不同分布下的拟合优度比较详见下表:

表三、不同分布的拟合优度比较
自由度 总离差 平均离差 对数似然 伽码分布 109 15.88 0.15 -701.01 正态分布 114 912033.22 8000.29 -749.39 逆高斯分布 109 0.24 0.00 -766.65
从上表我们可以看出,正态分布的总离差最大(拟合优度较差),而逆高斯分布的总离差最小(拟合优度较好),伽码分布居中,但是伽码分布的对数似然值却最大(为-701.01),因此,仅仅从总离差的角度就可以拒绝正态分布。对于各个参数的显著性检验,我们则通过SAS软件的Genmod程序的type1检验得出。表四——表六分别列出了伽码分布、正态分布和逆高斯分布的tpye1分析结果,其中,伽码分布和正态分布中,所有的参数均能通过显著性检验,但是在逆高斯分布中参数车型未能通过显著性检验( EMBED Equation.DSMT4 统计量为7.79,P值为0.0507),因而,逆高斯分布也被拒绝。综合上述的总离差分析,选择伽码分布作为最终的拟合分布。

表四、伽码分布TYPE1分析
2倍对数似然 自由度 Chisquare值 P值 年龄 -1487.9567 车型 -1465.9255 3 22.03 <.0001 车龄 -1402.0105 3 63.92 <.0001
表五、正态分布TYPE1分析
2倍对数似然 自由度 Chisquare值 P值 年龄 -1592.4905

车型 -1579.5307 3 12.96 0.0047 车龄 -1498.7876 3 80.74 <.0001 表六、逆高斯分布TYPE1分析
2倍对数似然 自由度 Chisquare值 P值 年龄 -1568.0007 车型 -1560.2152 3 7.79 0.0507 车龄 -1533.2995 3 26.92 <.0001
3、参数估计
根据前文的分析,建立广义线性模型,由于选择的连接函数为对数连接(LOG),因此,程序计算出的参数估计值为取对数后的数值,我们通过求取对数函数的反函数即可计算出实际的参数估计值,从下表我们还可以看出,所有的参数均能通过置信水平为1%的显著性检验。说明选择的模型能较好的拟和该公司的历史数据,并能据此厘定车险费率。



四、总结
与其他模型相比,广义线性模型主要应用于不满足正态数据的回归分析。对保险行业而言,该模型既保留了传统正态线性回归的优点,又使得损失分布的建模变得更为简单。因此,广义线性模型在保险中的运用不仅仅局限于汽车保险费率的厘定上,其在非寿险业务准备金,寿险的风险分类以及健康保险中的多状态模型等方面均有广泛的运用。


参考文献:
[1] Brockman, M.J, Wright, T.S., "Statistical Motor Rating: Making Effective Use of Your Data", Journal of Institute of Actuaries 119, Vol. III, pages: 457-543, 1992.
[2] Conning, "Insurance Scoring in Private Passenger Automobile Insurance – Breaking the Silence", Conning Report (2001).
[3] Hardin, James, Hilbe, Joseph, "Generalized Linear Models and Extensions", Stata Press,2001
[4] McCullagh, J. A. Nelder, "Generalized Linear Models", 2nd Ed., Chapman & Hall/CRC, 1989.
[5] Mildenhall, Stephen, "A systematic relationship between minimum bias and generalized linear models", Proceedings of the Casualty Actuarial Society, LXXXVI, 1999.
[6] 陈希儒,广义线性模型,《数理统计与管理》2002年9月
[7] 高惠璇等,《SAS系统SAS/STAT软件使用手册》中国统计出版社,1997年
[8] 毛泽春、刘锦萼,广义线性模型于保费点数计价系统,《统计研究》2002年第6期
[9] 王丽萍、马林茂,用SAS 软件拟合广义线性模型,《中国卫生统计》2002年2月
数据来源于《广义线性模型于保费点数计价系统》,统计研究,2002年第6期,毛泽春、刘锦萼









非寿险精算 精算通讯第六卷第一期

非寿险精算 精算通讯第六卷第一期

- PAGE 28 -

- PAGE 31 -


























































































































































































































































































































































***[JimiSoft: Unregistered Software ONLY Convert Part Of File! Read Help To Know How To Register.]***



相关主题