汽车第三者责任保险的索赔频率模型①
孟生旺
(中国人民大学统计学院,北京 100872)
[摘要]在汽车第三者责任保险的风险分类和费率厘定中,通常需要建立索赔频率预测模型。当实际的索赔次数存在过离散特征时,常用的泊松回归模型可能存在问题。本文讨论了混合泊松回归模型的特点及其在索赔频率预测中的应用,并结合马来西亚和中国汽车第三者责任保险的实际数据进行了实证研究。研究结果表明,汽车第三者责任保险的索赔次数存在过离散特征,混合泊松回归模型的预测效果优于常用的泊松回归模型。
[关键词]汽车保险;风险分类;索赔频率;过离散
一、引言
在汽车保险的费率厘定中,由于每个个体车辆的损失经验往往缺乏足够的可信度,所以必须对它们进行分类,即进行所谓的风险分类。风险分类的目的是将风险同质的车辆归为一类,从而对该类汽车收取相同的保险费。实际上,我们通常很难实现风险分类的同质化,因为随着同质化的提高,每一个风险类别包含的个体风险必然会越来越少,这将不能满足费率厘定的可靠性要求。在实际的费率厘定中,精算师必须平衡同质性与可靠性之间的关系。
恰当选择风险分类变量(也称作费率因子)是实现这种平衡的关键。如果分类变量太少,同一类别的车辆将存在较大差异,对它们收取相同的保费显然有失公平。反之,如果分类变量太多,从表面上看,同一类别的车辆在风险特征上更加接近,但有可能导致每个类别的车辆数太少,从而使得经验数据不足,费率厘定结果不稳定。
汽车保险的费率由纯保费、费用附加和利润附加等构成,其中纯保费所占比重最高,也是预测难度最大,从而最受精算师关注。从理论上讲,纯保费是期望索赔频率和期望索赔金额的乘积。由于影响索赔频率和索赔金额的因素通常是不同的,因此在纯保费的计算中,通常需要分别建立索赔频率和索赔金额的预测模型,然后将它们合并得到纯保费的预测模型。在纯保费预测模型中被保留下来的变量,就是通常所说的分类变量。本文将主要讨论索赔频率预测模型及其在分类费率厘定中的应用。
在汽车保险的发展历史中,曾经使用过的分类费率模型主要有线性回归模型、最小偏差模型(minimum bias procedure)和广义线性模型(generalized linear models)。线性回归模型假设因变量服从正态分布,且具有常数方差,这不符合索赔频率的实际特点,因为索赔频率是严格非负的离散型随机变量,且它们的方差往往随着均值的变化而变化。通常的情况是,均值越大,方差也会越大。由于线性回归模型在风险分类和费率厘定中存在明显缺陷,因此在当前的理论和应用研究中很少使用。
最小偏差法在分类费率的厘定中发挥了十分重要的作用,这类方法的特点是直观易用,通过简单的迭代运算就可以求得分类费率的厘定结果,但其缺陷是无法对分类变量的显著性做出检验和判断,从而有可能在预测模型中保留了不必要的分类变量。
广义线性模型是当前最为理想的分类费率模型,甚至被称作是一种行业标准,可以克服线性回归模型和
[作者简介]孟生旺,中国人民大学统计学院教授,博士生导师。
最小偏差法的上述缺陷。广义线性模型不仅可以提供用于费率厘定的参数估计,而且可以从各种备选变量中提取具有显著影响的分类变量,因此本文主要讨论广义线性模型及其在汽车第三者责任保险中的应用。
广义线性模型是对传统线性回归模型的推广。如果因变量不受正态分布假设的限制,允许它服从指数分布族中的任何一种分布,就可以建立广义线性模型。指数分布族包括一些常见的分布类型,如二项分布、泊松分布、正态分布和逆高斯分布等。这类广义线性模型的参数估计具有统一的形式,即可以通过迭代加权最小二乘法进行估计,其结果等价于极大似然估计。如果进一步推广,允许因变量服从任意一种分布,而不局限于指数分布族,就可以建立更加一般形式的广义线性模型,但此时的参数估计方法将没有统一形式,对每个模型都需要分别讨论其参数估计问题。
二、索赔频率的理论模型
在索赔频率的预测模型中,最常见的广义线性模型是泊松回归模型,即在索赔次数服从泊松分布的假设基础上建立的回归模型。
泊松分布的特点之一是方差等于均值,而实际上的索赔次数往往具有过离散(overdispersion)特征,即方差大于均值。导致过离散的原因可能多种多样,譬如,由于保险公司和保单持有人增强了风险防范意识,大多数保单不会发生保险事故;或者因为保险公司应用了免赔额或无赔款折扣等条款,许多被保险人在发生轻微事故时不会提出索赔;或者个别被保险人的风险太大,其索赔频率远远高于总体的平均水平。在这些情况下,如果仍然使用泊松回归模型,可能低估参数的标准误差,高估其显著性水平,从而在模型中保留了多余的解释变量,最终导致不合理的费率厘定结果。
当实际观察数据存在过离散特征时,可以将泊松回归模型进行推广。由于混合泊松分布的方差总是大于均值,因此一种自然的想法就是建立混合泊松回归模型。
采用不同的结构函数将生成不同的混合泊松分布,因此混合泊松分布的尾部特征与结构函数密切相关。结构函数的尾部越厚,混合泊松分布的尾部将会越长。在混合泊松分布中,最常见的结构函数是伽玛分布和逆高斯分布,相应的混合泊松分布就是负二项分布和泊松-逆高斯分布。当然,还可以考虑其他结构函数,如对数正态分布,从而建立泊松-对数正态模型。可以证明,在上述三种结构函数中,如果给定均值和方差,对数正态分布的尾部最厚,其次是逆高斯分布,而伽马分布的尾部最轻。相应地,泊松-对数正态分布的尾部最长,其次是泊松-逆高斯分布,最后是负二项分布。因此,这三种分布分别适合于拟合不同过离散程度的索赔频率数据。
在处理过离散数据时,还可以考虑其它分布模型,如广义泊松分布和混合负二项分布等。事实上可以证明,广义泊松分布和混合负二项分布也属于混合泊松分布,只不过广义泊松分布的结构函数没有显式表达,而混合负二项分布的结构函数很复杂。
下面是一些常见的索赔频率分布的概率函数:
泊松分布:Pr(Yi=yi)=exp(-λi)λyii[]yi!
负二项分布:Pr(Yi=yi)=Γ(a+yi)[]Γ(a)Γ(1+yi)(a[]a+λi)a(λi[]a+λi)yi
泊松-逆高斯分布:Pr(Yi=yi)=∫∞[]0exp(-θλi)(θλi)yi[]yi! exp[-(θ-1)2/(2τθ)][]2πτθ3dθ,其中积分号内的第二项是均值为1的逆高斯分布,参数为(1,τ)。
泊松-对数正态分布:Pr(Yi=yi)=∫∞[]0exp(-θλi)(θλi)yi[]yi! exp[-(lnθ+σ2/2)2/(2σ2)][]θσ2πdθ,其中积分号内的第二项是均值为1的对数正态分布,参数为(-σ2/2,σ2)。
①本文获国家自然科学基金项目“非寿险经验费率模型研究”(70771108),教育部人文社会科学重大项目“我国车险统计精算的广义线性模型研究”(05JJD910152)和教育部新世纪优秀人才支持计划的资助。广义泊松分布:Pr(Yi=yi)=λi[]1+aλiyi(1+ayi)yi-1[]yi!exp-λi(1+ayi)[]1+aλi
在上述概率函数中,Yi表示第i份保单的索赔次数随机变量。上述分布的均值都可以表示为λi。若令第i份保单的均值等于分类变量的一个函数,即可得到相应的回归模型,譬如,可以令均值为λi=exp(xTiβ),这样可以确保索赔频率的估计值不会出现负值,其中β是p×1阶的参数向量,xi=(xi1,…,xip)T是分类变量的取值,xij通常等于0或1。
三、案例研究
下面应用汽车第三者责任保险的两组实际索赔频率数据进行实证分析,其中一组数据来自马来西亚,另一组数据来自中国。不过马来西亚的数据是经过分类汇总后的数据,而中国的数据是个体保单的数据。
1.马来西亚的案例
这组数据来自马来西亚的一家财产保险公司,是汽车第三者责任保险财产损失索赔频率的实际数据(Ismail,Jemain,2007)。原始数据包含6个解释变量,分别是保单类型、驾驶员性别、车辆用途、车辆品牌、使用年限和行驶区域。这6个解释变量分别有2个、2个、3个、4个和5个水平,将所有的被保险车辆划分为2×2×3×4×5=240个风险类别。由于原始数据中有7个类别的被保险车辆数为零,故实际可以用于分析的观察数据共有233个。
模型参数的估计值
表1
分类变量及其水平[]泊松[]负二项[]泊松-逆高斯[]泊松-对数正态[]广义泊松截距[]-2.367 7[]-2.357 3[]-2.367 6[]-2.368 0[]-2.348 3综合险[]0[]0[]0[]0[]0非综合险[]-0.675 8[]-0.727 4[]-0.730 6[]-0.728 3[]-0.736 2男性[]0[]0[]0[]0[]0女性[]-0.505 1[]-0.541[]-0.544 4[]-0.544 6[]-0.548 9个人[]0[]0[]0[]0[]0商用[]-6.044 1[]-6.054[]-6.055 6[]-6.026 7[]-6.058 4国产,0-1年[]0[]0[]0[]0[]0国产,2-3年[]-0.48[]-0.506 6[]-0.491 1[]-0.490 8[]-0.516 3国产,4-5年[]-0.817 6[]-0.869[]-0.853 2[]-0.853 1[]-0.885 2国产,≥6年[]-1.063 3[]-1.044 2[]-1.029 7[]-1.029 2[]-1.047 6进口,0-1年[]-0.586 7[]-0.617 4[]-0.605 5[]-0.605 2[]-0.626 5进口,2-3年[]-0.677 3[]-0.693 2[]-0.682[]-0.681 4[]-0.706 2进口,4-5年[]-0.765 8[]-0.763 1[]-0.749 2[]-0.748 7[]-0.768 6进口,≥6年[]-0.839 8[]-0.809 2[]-0.795 2[]-0.795 7[]-0.808A区[]0[]0[]0[]0[]0B区[]-0.217 3[]-0.156 7[]-0.158[]-0.157 4[]-0.143 4C区[]-0.424 7[]-0.428 1[]-0.427 5[]-0.427 3[]-0.426 9D区[]-0.500 8[]-0.508 4[]-0.509[]-0.508 8[]-0.509 3AIC[]804[]767.4[]767.2[]766.9[]768.4BIC[]852.3[]819.2[]819[]818.8[]820.1Ismail 和Jemain(2007)应用泊松回归、负二项回归和广义泊松回归对这组数据进行了研究。在他们的研究中,最终选定了的解释变量(费率因子)如表1所示。为了便于比较,本文仍然使用这些费率因子进行研究,并将每个费率因子的第1个水平设定为基准水平,譬如,保单类型的基准水平为“综合险”。在回归模型中,基准水平的参数为零,它们对因变量的影响体现在截矩项上。
表1是对模型参数的估计值,每个参数在1%的显著性水平下都是显著的,因此可以认为表1的费率因子对预测被保险人的索赔频率都具有显著影响。为了简明起见,表1 仅列出了回归参数的估计值,没有列出其它参数(如离散参数)的估计值。
在比较不同模型时,通常使用的两个统计量是AIC和BIC,它们的值越小,说明模型拟合得越好。从表1可以看出,无论是比较AIC还是BIC,泊松-对数正态回归模型的值都是最小的,因此可以认为,对于这组数据而言,泊松-对数正态回归模型的拟合效果相对较好。相应地,每辆汽车的期望索赔频率可以由泊松-对数正态分布的参数估计值求得。譬如,对于基准水平的保单,即“综合险、男性驾驶员、个人使用、国产、使用年限在0~1年、行驶区域为A”的汽车,期望索赔频率为λ0=exp(-2.3680)=9.367%。
关于上述分析,还需补充说明三点:
(1)马来西亚的这组数据是经过分类后的汇总数据,这在一定程度上会损失掉原始数据所包含的一些重要风险信息。在实际应用中,应该尽可能使用个体保单的数据,这会改善模型的拟合效果,结果也会更加可靠。
(2)从AIC和BIC统计量来看,尽管泊松-对数正态回归模型的拟合效果最好,但与负二项回归模型的差异不大。事实上,这两个模型的参数估计值十分接近,因此在实际应用中,可以考虑使用负二项回归模型,因为负二项回归模型的应用相对简单。
(3)与泊松回归模型相比,过离散回归模型对数据的拟合效果都有所改善,这从另一个角度也说明马来西亚的车险索赔频率存在过离散特征。
2.中国的案例
这组数据是汽车第三者责任保险的索赔频率数据,来自于中国的一家财产保险公司。剔除原始数据中的无效记录和保险期限不足一年的保单以后,剩余115 960份有效保单,承保年份为2001年,保险期限均为1年。
索赔次数的观察值和拟合值如表2所示,其中观察值表示发生特定索赔次数的风险单位数(车年数),譬如表2中发生0次索赔的车年数为102 003。这里的索赔次数是指实际发生赔付的索赔次数,不包括被保险人提出了索赔但最终被拒付的案件。第三者责任保险的平均索赔频率为13.99%,方差为16.76%,方差明显大于均值,可能存在过离散特征。
从表2不难看出,负二项分布对观察值的拟合效果明显优于泊松分布,这进一步表明索赔次数的观察值存在过离散特征。不过这里需要说明一点的是,判断索赔次数的观察值是否存在过离散,可以应用有关统计方法进行严格检验,但这种检验对本文的意义不是很大,故此略去。
第三者责任保险索赔次数的观察值和拟合值
表2
索赔次数[]观察值[]负二项分布的拟合值[]泊松分布的拟合值0[]102 003[]102 019[]100 8241[]12 087[]11 994[]14 1022[]1 550[]1 662[]9863[]263[]242[]464[]46[]36[]25[]7[]56[]4[]1自由度[][]4[]3χ2[][]13[]1 587从表2的χ2统计量来看,负二项分布对索赔次数观察值的拟合效果很好,因为自由度为4的χ2分布大于13的概率仅为1.13%。注意,在计算表2的χ2统计量时,要求拟合值大于5,因此把小于5的拟合值进行了合并。
当观察数据存在过离散特征时,应该采用过离散回归模型对索赔频率进行预测。如前所述,在过离散回归模型中,负二项回归模型的应用相对简单和方便,而且表2的拟合结果也表明,负二项分布对该组索赔次数的拟合效果很好,因此下面主要以负二项回归模型进行实证分析。事实上,从有关检验统计量来看,负二项回归模型对实际数据的拟合效果远远优于泊松回归模型,譬如,负二项回归的对数似然函数值(-46 838)远远大于泊松回归的对数似然函数值(-47 417),负二项回归模型的偏差(54 812)远远小于泊松回归模型的偏差(69 131),负二项回归模型的皮尔逊卡方统计量(117 809)也远远小于泊松回归模型的皮尔逊卡方统计量(136 950)。
表3是负二项回归模型的参数估计值,可以看出,每个参数在5%的水平下都是显著的(所有的p值都小于5%),因此这些变量都可以作为风险分类变量或费率因子使用。表3的最后一列给出了相应的索赔频率因子,它们等于负二项回归模型参数估计值的指数变换,譬如,负二项回归模型的截距项为-1.830 2,故相应的索赔频率因子为exp(-1.830 2)=0.16。索赔频率因子的大小反映了在给定其它条件时,不同分类变量的取值对期望索赔频率的影响。其中1为参照类别的索赔频率因子,小于1表示索赔频率低于参照类别,大于1表示索赔频率高于参照类别。
在第三者责任保险的索赔频率研究中,我们选定的参照类别是“六座以下客车、非营业私人用途、新投保、国内行驶、3年及以上驾龄、10万元责任限额”的车辆,因为这个风险类别包含的保单数最多。根据负二项回归模型的参数估计结果,这个类别的期望索赔频率为0.16。对于其它风险类别,第三者责任保险的期望索赔频率可以通过表3的索赔频率因子计算,即:
索赔频率=0.16×车辆类型因子×使用性质因子×续保因子×行驶区域因子×驾龄因子×责任限额因子
譬如,“十吨及十吨以上货车、营业、省内行驶、1年以下驾龄、5万元责任限额、续保”的车辆,其期望索赔频率为
0.16×1.77×1.44×0.83×0.39×1.14×0.8=0.12
从表3我们可以得出以下结论:
(1)从车辆类型来看,货车的吨位数越高,索赔频率越高;而客车的座位数越少,索赔频率越高。挂车的索赔频率最低,仅为参照类别的15%;特种车(起重车、装卸车、工程车、监测车)的索赔频率高于参照类别(六座以下客车)。
(2)从使用性质来看,非营业机关用车的索赔频率最低,其次是非营业企业用车。营业用车的索赔频率最高。非营业私人用车的索赔频率居中。
(3)从续保情况来看,续保车辆的期望索赔频率低于新投保车辆,在其它条件不变的情况下,续保车辆的索赔频率是新投保车辆的83%。
(4)从行驶区域来看,省内行驶车辆的索赔频率仅是国内行驶车辆的39%。
(5)从驾龄来看,驾龄越小,索赔频率越高。不足一年驾龄的索赔频率比3年及以上驾龄高14%,而1~2年驾龄的索赔频率比3年及以上驾龄高9%。
(6)从责任限额来看,责任限额越高,索赔频率越高。5万元限额的索赔频率是10万元限额的80%,而20万元限额的索赔频率是10万元限额的1.15倍。
当然,这里需要强调一点的是,索赔频率的差异不能完全反映纯保费的差异。纯保费是索赔频率和索赔金额的乘积。在许多情况下,索赔频率较高的车辆其索赔金额可能较低,从而使得其纯保费并不高。反之,索赔频率不高的车辆,如果期望索赔金额较高,也可能导致较高的纯保费。此外,索赔频率因子受模型中分类变量的影响,在模型中保留不同的分类变量,索赔频率因子会有所不同,这是因为广义线性模型可以根据变量之间的相互关系自动调整参数估计值。譬如,当模型中忽略了一个具有重要影响的分类变量时,广义线性模型会调整其它变量的参数估计值,从而在一定程度上弥补缺失变量的影响。
四、小结
泊松回归模型由于其简单易用而在非寿险索赔频率模型中广泛应用,但其缺陷是不能反映实际损失数据中可能存在的过离散现象。为了解决索赔频率中的过离散问题,可以考虑各种混合泊松回归模型,因为混合泊松分布的特点之一就是方差大于其均值。常见的混合泊松分布包括负二项分布、泊松-逆高斯分布、泊松-对数正态分布和广义泊松分布等。从理论上讲,可以建立很多不同的过离散回归模型,但从实际应用的角度来看,应该优先考虑上述模型,因为这些模型已经包含了较多的变化类型,基本上可以满足过离散索赔频率数据的实际需要。如果索赔频率的过离散特征不是十分严重,可以优先考虑简单易用的负二项回归模型。
负二项回归模型的参数估计值
表3
分类变量及其取值[]参数估计值[]标准误[]p值[]索赔频率因子[]截距(参照类别)[]-1.830 2[]0.021 1[]<.000 1[]0.16车辆类型[]十吨及十吨以上货车[]0.573 3[]0.067 2[]<.000 1[]1.77二吨至十吨以下货车[]0.236 1[]0.041 1[]<.000 1[]1.27二吨以下货车、农用车[]-0.184[]0.038 9[]<.000 1[]0.83特种车[]0.168 2[]0.078 9[]0.033 0[]1.18挂车[]-1.919 7[]0.587 7[]0.001 1[]0.15二十及二十座以上客车[]-0.403 9[]0.080 6[]<.000 1[]0.67六座至二十座以下客车[]-0.047 4[]0.021 6[]0.028 4[]0.95六座以下客车[]0[]0[].[]1.00使用性质[]营业[]0.364 4[]0.037 5[]<.000 1[]1.44非营业企业[]-0.195 1[]0.02[]<.000 1[]0.82非营业机关[]-0.634 6[]0.049 5[]<.000 1[]0.53非营业私人[]0[]0[].[]1.00行驶区域[]省内[]-0.937 4[]0.075 8[]<.000 1[]0.39国内[]0[]0[].[]1.00驾龄[]1年以下驾龄[]0.135 3[]0.021 1[]<.000 1[]1.141-2年驾龄[]0.081 9[]0.023[]0.000 4[]1.093年及以上驾龄[]0[]0[].[]1.00责任限额[]5万限额[]-0.219 2[]0.019 6[]<.000 1[]0.8010万限额[]0[]0[].[]1.0020万限额[]0.141 4[]0.03[]<.000 1[]1.15是否续保[]续保[]-0.191 8[]0.024 4[]<.000 1[]0.83新投保[]0[]0[].[]1.00[]离散参数[]1.168 8[]0.047 8在建立索赔频率的过离散回归模型时,参数初始值的选择尤为重要,不恰当的初始值可能导致程序不收敛。为此,可以首先拟合泊松回归模型,然后以泊松回归模型的参数估计值作为建立过离散回归模型的初值。
本文使用的马来西亚的车险数据经过了分类汇总,虽然可以应用这种数据建立分类费率模型,但其结果可能存在偏差。对我国个体车险数据进行分类汇总后建立的分类费率模型表明,其结果与本文给出的模型存在较大差异。因此,在实际应用中,除非万不得已,应该使用个体保单的损失数据建立分类费率模型。
本文讨论的方法虽然具有广泛的适应性,但有关数值计算结果是在特定条件下的结论,不具有普遍意义。不同的保险公司应该根据自己的实际数据建立相应的分类费率模型。此外,当实际索赔频率数据中的过离散问题是由于零点的概率严重偏高所致时,可能需要建立零膨胀回归模型。由于本文研究的索赔频率数据没有零膨胀特点,因此略去了对零膨胀回归模型的讨论。
如果保险公司积累了多年的损失经验数据,本文的方法还需进一步拓展,可以考虑建立多层统计分析模型,因为同一车辆在不同年度的索赔次数之间存在相关关系。
[参考文献]
[1]Deniut,M.,Marechal,X.,Pitrebois,S.,Walhin,J.F..Actuarial modeling of claim counts.New York: John Wiley & Sons,Ltd,2007.
[2]Joe,H.and Zhu,R..Generalized Poisson distribution: the property of mixture of Poisson and comparison with negative binomial distribution [J].Biometrical Journal,2005 (47):219-229.
[3]Klugmann,S.K.,Panjer,H.H.and Willmot,G.E.Loss models: from data to decision [M].New York: John Wiley & Sons,Inc,2004.
[4]Ismail,N.,Jemain,A.A..Handling overdispersion with negative binomial and generalized Poisson regression models [J].Carualty Actuarial Society Forum,Winter 2007: 103-158.
[5]Yip,K.C.H.,Yau,K.K.W..On modeling claim frequency data in general insurance with extra zeros [J].Insurance: Mathematics and Economics,2005 (36): 53-163.
[6]Ismail,N.,Jemain,A.A..Handling overdispersion with negative binomial and generalized Poisson regression models [J].Carualty Actuarial Society Forum,Winter 2007: 103-158.
Abstract:In classification and ratemaking of automobile third party liability insurance, we usually build regression models of claim counts. When the data are overdispersed, Poisson regression model may not be suitable. The paper discussed the properties of mixed Poisson regression models and their applications in predicting claim frequency. The paper used these models to analyze the claim counts of automobile third party liability insurance from Malaysia and China. The result shows that the claim counts of automobile third party liability insurance are overdispersed, and so mixed Poisson regression models are better than commonly used Poisson regression model.
Key words:auto insurance; classification; claim frequency; overdispersion
[编辑:李芳]保险研究2008年增刊2