高年龄段死亡率模型研究
田今朝
(中国人寿保险股份有限公司,北京 100020)
[摘要]任何国家在编制生命表时都面临着高年龄段可以观察到的数据量较小的局限。本文首先对我国第五次人口普查数据及日本死亡率数据进行了初步分析,同时对死亡率的基本特点进行了比较,在此基础上,选择80~94岁的死亡率数据作为建模依据;并对不同参数模型进行拟合,选择了拟合度较好的Logistic2、Logistic3、Kannisto和HP模型作为高年龄段死亡率趋势外推模型;最后利用前面讨论的模型对我国寿险业1990~1993和2000~2003生命表进行高年龄段的趋势预测,并比较了不同模型下预期寿命的差异。
[关键词]生命表; 生存模型; 高年龄段死亡率
[中图分类号] F840 [文献标识码] A [文章编号]1004-3306(2007)04-0053-05
Abstract: This paper made an initial comparison of the results of China’s 5th census with the mortality data of Japan, including a comparison of their respective mortality characteristics. Then it used the mortality data for the 8094 age group as its modeling basis. It also uses different parameters to model this trend, and come out with the Logistic2, Logistic3, Kannisto and HP models as the tendencyinference mortality model for the high age group. Finally, the paper employed the aforesaid models to make a highage trend projection for the 19901993 and 20002003 life tables of China, and compared the differences of life expectancy under different models.
Key words:life table; living model; highage mortality
本文利用我国第五次人口普查死亡率数据,对高年龄段死亡率进行趋势模拟,比较不同模型的拟合效果,对生命表编制时高年龄段死亡率模型的选择,有很好的参考价值。
一、数据分析
人口普查的死亡率数据对城市、镇、乡村的死亡率分别进行了统计,这里可以观察分地区、分性别的死亡率水平。考虑到日本与我国人种比较接近,有关人口死亡率数据比较完善,本文主要选择日本的死亡率与我国进行比较。
(一)不同地区同性别死亡率比较
对于男女死亡率,乡村相对较高,并且随着年龄的增长,与城市和镇的差异逐渐加大。城市和镇的死亡率则比较接近。男性死亡率还有一个明显的特征,无论是城市、镇还是乡村死亡率都在95岁左右时出现了明显的下降趋势,虽然死亡率在以后个别年龄上有所上升,但这种下降趋势仍然比较明显。女性镇和乡村死亡率在99岁时也有所下降。
(二)同一地区不同性别死亡率比较
以上比较了同性别不同地区死亡率的状况,下面是同一地区不同性别死亡率的比较结果。
无论是城市、镇还是乡村,在65~94岁时,男性死亡率都明显高于女性,但在此之后男性的死亡率开始出现明显的下降,水平明显低于同年龄女性的死亡率。
(三)与日本不同时期死亡率比较
我国第五次人口普查于2000年进行,这里主要将此次普查数据与日本1990、1995和2000年的数据进行比较。
在93岁前,男性综合死亡率明显高于日本各年度的死亡率水平。在此之后,综合死亡率开始急剧下降,并依次与日本1990、1995和2000年数据相当。
第五次人口普查65~93岁的女性死亡率都明显高于日本3个不同年份的死亡率水平。但值得注意的是,从94岁开始,第五次人口普查死亡率增长开始变慢,并逐渐低于日本1990和1995两年的死亡率水平。城市、镇、乡村死亡率同样存在类似的趋势。通过分析可以发现:
1.死亡率随着年龄的上升而逐渐上升,但在高年龄段死亡率上升的幅度有所减缓。
2.女性93岁以后死亡率增长减缓,男性甚至出现了下降。根据一般的判断,死亡率在93岁以后急剧下降是不太可能的,通过与同年龄女性数据和日本数据的比较,男性数据在93岁以后的明显下降值得怀疑。
3.尽管在80岁以前,第五次人口普查死亡率数据明显
[作者简介]田今朝,FSA,现任中国人寿保险股份有限公司精算部资深精算分析师(部门总经理助理级)兼经验分析处高级经理。
高于日本,但在80岁以后的死亡率差异逐渐减小。
通常意义上,高年龄人群死亡率上升缓慢或下降可能有两种原因:一是统计数据的质量在93岁后难以保证造成的,城市数据质量要高于镇和农村,女性数据质量要高于男性;二是由于死亡的选择性效果在这一年龄段体现,即身体状况不太好的人群在早些年龄已经死亡,而存活下来的人群在随后的几年死亡率上升缓慢甚至会有所下降。一般分析认为数据质量问题可能会比较突出,从而造成女性死亡率的上升幅度减慢,而男性93岁以后死亡率急剧下降。
同时由于死亡率的选择效果,如果我国死亡率选择效果更明显的话,有理由相信在极高年龄段(80岁以后),我国死亡率将和发达国家(如日本)的死亡率更趋于一致。
通过以上分析,对男性和女性数据分别考虑用93岁以前(含93岁)和94岁以前(含94岁)的数据建立死亡率模型。
二、模型拟合
(一)模型描述
描述高年龄死亡率的模型有很多,这里从模型应用的广泛性和实用性(参数不宜过多)等方面考虑选择Gormpertz、Weibull、Logistic2、Logistic3、HP和Kannisto 6种死亡率模型来对第五次人口普查的数据进行分析。
通过μ(x)就可以得到死亡率q(x)。q(x)=1-exp(∫x+1()xμ(t)dt)表示在x岁生存的人在x+1岁前死亡的概率。为了参数估计的方便,这里假设对于每个参数模型θ(x,α),死亡力函数可以近似为μ(t)=θ(x+0.5,α),t∈(x,x+1)。q(x)可以近似为1-exp{-θ(x+0.5,α)}。这样可以通过最大化对数似然方程L=∑()x{D(x)lnq(x)+(N(x)-D(x))ln(1-q(x))}来估计参数模型中的参数α。其中,N(x)为暴露数;D(x)为死亡人数。
(二)模型拟合
根据前面的分析结果,对男性、女性数据分别建立模型,然后进行外推预测到105岁(其中男性年龄区间为80~93岁;女性为80~94岁)。
6个模型对80~93(女性为94)岁的数据拟合的效果都较好。所有模型都高估了95~99岁的死亡率水平。其中Gompertz模型的增长最快,Kannisto最慢,并与实际观测的死亡率水平最为接近。其他模型死亡率从高到低依次为Weibull、HP、Logistic3、Logistic2。
具体的拟合结果和效果检验见表1,本节中期望剩余寿命的比较均为94岁以上。
1.综合数据
综合数据拟合结果
表1
模型
名称()死亡力函数()参
数()男性()女性估计结果()残差
平方和()估计结果()残差
平方和Gompertz()μ(x)=aebx()a()0.000 328b()0.0 731()126.827()0.000 0720.0876()281.091Weibull()μ(x)=axb()a()7.97E-14b()6.3831()113.211()1.69E-167.7045259.589Logistic2()μ(x)=beax()1+beax()a()0.0 915b()0.000 087()111.264()0.1 0530.000 019()245.073Logistic3()μ(x)=beax()1+ceax()a()0.0 837b()0.00 015c()0.000 094()109.500()0.09670.000 0360.00 002()250.436H-P()q(x)=aebx()1+aebx()a()0.000 188b()0.0 807()113.026()0.00 0040.0 952()255.625Kannisto()μ(x)=aebx()1+a(ebx-1)()a()0.000 083b()0.0 915()111.174()0.000 0180.1054()244.799从残差平方和看,对男女数据拟合效果最好的模型都是Logisitc3、Kannisto和Logistic2。各模型中,Kannisto模型下期望剩余寿命相对最高,Gompertz模型最低。其余模型从高到低依次为Logistic2、Logistic3、Weibull、HP。
对于女性,所有模型下剩余寿命均低于日本1995年普查数据水平。除Gompertz模型外其余模型在高于95岁年龄段都高于日本1990年普查数据的水平。
对于男性,除Gompertz模型外,其余模型的期望剩余寿命均高于日本1995年普查数据水平,只有Gompertz模型下剩余寿命介于日本1990年普查数据和1995年普查数据之间。与女性数据剩余寿命低于日本1995年普查数据水平相比,男性数据的结果值得怀疑。
2.城市数据(见表2)
城市数据拟合结果
表2
模型
名称()死亡力函数()参
数()男性()女性估计结果()残差
平方和()估计结果()残差
平方和Gompertz()μ(x)=aebx()a()0.000 167b()0.0 791()231.285()0.000 0310.0 955()101.448Weibull()μ(x)=axb()a()6.42E-15b()6.9 129()203.959()6.36E-188.4 043()100.582Logistic2()μ(x)=beax()1+beax()a()0.0 959b()4.90E-5()191.459()0.1 1199.12E-6()103.438Logistic3()μ(x)=beax()1+ceax()a()0.0 957b()0.000 048c()0.000 047()191.673()0.1 0000.000 0226.63E-6()94.395H-P()q(x)=aebx()1+aebx()a()0.000 098b()0.0 862()209.532()0.000 0180.1027()93.261Kannisto()μ(x)=aebx()1+a(ebx-1)()a()4.70E-5b()0.0 959()191.450()8.57E-60.112()103.106从残差平方和看,对于男性城市死亡率Kannisto、Logistic2和Logistic3模型效果较好。对于女性城市死亡率Logistic3和HP模型效果较好。
Kannisto与Gompertz仍然代表了期望剩余寿命的最高和最低水平。其他模型从高到低依次为Logiscit2、Weibull、HP、Logistic3。对于男性数据,即使是在代表着最低剩余寿命水平的Gompertz模型下,在100岁之前期望剩余寿命水平都高于日本1995年普查数据水平。
3.镇数据(见表3)
镇数据拟合结果
表3
模型
名称()死亡力函数()参
数()男性()女性性估计结果()残差
平方和()估计结果()残差
平方和Gompertz()μ(x)=aebx()a()0.000 299b()0.0 727()112.158()0.000 0480.0 905()202.195Weibull()μ(x)=axb()a()8.40E-14b()6.3 428()109.467()4.73E-177.9 554()208.996Logistic2()μ(x)=beax()1+beax()a()0.088b()0.0 001()129.195()0.1 0570.000 016()210.022Logistic3()μ(x)=beax()1+ceax()a()0.0 579b()0.000 867c()1.26E-3()55.167()0.0 9130.000 0452.99E-6()200.982H-P()q(x)=aebx()1+aebx()a()0.000 185b()0.0 793()89.873()0.000 0290.0 972()198.318Kannisto()μ(x)=aebx()1+a(ebx-1)()a()0.000 095b()0.0 881()128.572()0.000 015209.618()0.1058男性、女性数据都是Logistic3和HP模型的残差平方和最小。
剩余寿命,男性除Logsitic3模型外,都高于日本1995年普查数据水平;女性则全部介于日本1990年普查数据和1995年普查数据水平之间。
4.乡村数据(见表4)
乡村数据拟合结果
表4
模型
名称()死亡力函数()参
数()男性()女性估计结果()残差
平方和()估计结果()残差
平方和Gompertz()μ(x)=aebx()a()0.000 363b()0.0 727()148.862()0.000 0840.0 866()456.981Weibull()μ(x)=axb()a()1.00E-13b()6.3465()129.837()2.86E-167.616()417.580Logistic2()μ(x)=beax()1+beax()a()0.0 925b()0.000 086()126.090()0.1 0560.00 002()387.491Logistic3()μ(x)=beax()1+ceax()a()0.0 849b()0.000 146c()0.000 098()124.508()0.0 9940.000 0310.000 022()396.561H-P()q(x)=aebx()1+aebx()a()0.0 002b()0.0 808()130.429()0.000 0460.0 946()415.997Kannisto()μ(x)=aebx()1+a(ebx-1)()a()0.000 082b()0.0 926()126.021()0.000 0190.1 057()387.287从残差平方和看,Kannisto、Logisitic2和Logistic3相对来说较好。
由于乡村的死亡率相对较高,剩余寿命相对城市和镇来说有了明显的下降。对于女性,除Kannisto模型外,其它各模型的剩余寿命都明显低于日本1995年普查数据水平。而男性剩余寿命,除Gompertz模型外,其他模型都高于日本1990年普查数据水平。
(三)结果分析
从各个模型对死亡率的拟合效果看,Kannisto、Logistic3、Logistic2和HP模型的效果良好。具体汇总结果见表5。
死亡率数据模型拟合情况
表5类型()拟合效果较好的模型女性()男性综合()Kannisto、Logistic2、Logistic3()Logisitc3、Kannisto、Logistic2城市()Logistic3、HP()Kannisto、Logistic2、Logistic3镇()HP、Logistic3()Logistic3 、HP农村()Kannisto、Logistic2、Logistic3()Logistic2、Kannisto、Logistic3从表5可得出如下结论:对于女性,城市和镇死亡率比较接近,增长相对乡村来说较缓慢,Logistic3和HP模型比较适合。Kannisto模型则较适合乡村和综合数据。因此,在研究高年龄段死亡率时,有必要将不同地区区别对待。对于男性,较好的死亡率模型为Logistic2、Logistic3和Kannisto模型。
从模型的变化趋势上看,Gompertz模型的死亡率上升最快,Kannisto最慢,其他模型介于两者之间。
将我国女性和男性高年龄段死亡率分别与日本进行比较,我国女性死亡率总体来说相对较高,城市死亡率水平与日本1990年普查数据接近。但男性死亡率却与日本1990和1995年普查数据相当,城市和镇的死亡率甚至明显低于日本1990和1995年普查数据的水平。这是否真实地反映了我国男性的死亡率水平值得进一步研究。
三、模型的应用
对我国第五次人口普查的数据建立模型的结果表明,模型Kannisto、Logistic2、Logistic3和HP对于高年龄段死亡率的拟合效果比较理想。下面分别对1990~1993和2000~2003死亡率数据用4种模型进行拟合,并检验这4种模型的效果(详见表6)。
首先分别来看生命表编制过程中对这两组死亡率数据的处理过程。
生命表编制过程中对数据的处理过程
表6()1990~1993()2000~2003实际观测q(0)x()0~65()0~65第一次补整q(1)x()风险附加(方差补整)
(0~65)()风险附加
(0~65)第二次补整q(2)x()低年龄组和高年龄组参考表补整
(0~80)()3阶移动平均
(0~65)第三次补整q(3)x()8参数模型修匀,外推到105岁
(0~105)()Gompertz模型,外推到105岁
(0~105)注:()中表示数据中有死亡率数值的年龄
下面,本文尝试用1990~1993和2000~2003的寿险行业死亡率数据进行模型的拟合,这里需要强调的是:
(1)由于1990~1993生命表65~80岁的死亡率是参考第四次人口普查数据进行的补整,利用60~80岁的数据进行不同模型的拟合并进行趋势外推时,一定程度上反映了第四次人口普查的死亡率规律。
(2)2000~2003的实际观察数据为0~65岁,用65岁以前的数据进行模型的拟合并进行趋势外推有一定的局限性,65岁以前的死亡率规律可能与80岁以后的死亡率规律有较大的差异,尽管如此,本文还是利用50~65岁的数据进行了模型的拟合和趋势外推。
(3)两次生命表的数据都经过了修匀,从模型的拟合效果来看比较好;尤其是2000~2003的死亡率数据,65岁以后的死亡率是经过Gompertz模型趋势外推得到的,65岁以前和外推的65岁以后的死亡率是经过再次接合修匀的,因此拟合的效果会非常好。
(一)对1990~1993数据的分析
1990~1993数据组中原始数据和按方差补整的死亡率仅包括0~65岁的年龄段。第二次补整死亡率到80岁。考虑对高年龄组死亡率的分析,根据第二次补整死亡率建立模型,利用60~80岁的数据对男性、女性分别建立模型,并利用参数估计结果将死亡率外推到105岁。
1990~1993数据模型及拟合结果
表7
模型
名称()死亡力函数()参
数()男性()女性估计结果()残差
平方和()估计结果()残差
平方和Gompertz()μ(x)=aebx()a()0.000 046b()0.09428.289()0.000 0210.1 004()15.611Weibull()μ(x)=axb()a()1.32E-14b()6.7269()30.346()1.34E-157.1846()23.254Logistic2()μ(x)=beax()1+beax()a()0.0 983b()0.000 037()27.418()0.1 0370.000 018()16.552Logistic3()μ(x)=beax()1+ceax()a()0.1 024b()0.000 028c()0.000 052()28.695()0.10260.000 0180.000 013()16.159H-P()q(x)=aebx()1+aebx()a()0.000 041b()0.0 961()27.574()0.000 0190.102()15.951Kannisto()μ(x)=aebx()1+a(ebx-1)()a()0.000 036b()0.0 983()27.417()0.000 0170.1037()16.553如表7,从残差平方和的结果看,Kannisto、Logistic2和H-P对男性数据的拟合效果最好。这与第五次人口普查数据分析结果一致。而Gompertz、H-P、Logistic2和Kannisto对女性数据的拟合效果最好。
图1和图2是男性、女性拟合和外推效果图。虽然各模型对60~80岁数据的拟合结果区别不大,但进行外推时它们不同的变化趋势开始显现出来。其中Gompertz模型最陡峭, Logistic3模型最平缓。Kannisto和Logistic2的外推效果比较接近。
下面将男性、女性拟合效果最好的模型下的期望剩余寿命与我国1990~1993经验生命表期望剩余寿命进行比较。如图3和图4。
age
图11990~1993死亡率拟合和外推结果——男性
age
图21990~1993死亡率拟合和外推结果——女性
age
图31990~1993期望剩余寿命——男性
age
图41990~1993期望剩余寿命——女性
无论是男性还是女性,在HP模型下,期望剩余寿命都与CL1990~1993结果相似。Kannisto模型剩余寿命水平最高。
(二)对2000~2003数据的分析
2000~2003数据中,第二次补整的死亡率只到65岁,很难进行高年龄死亡率的预测。这里对50~65岁的死亡率数据建立模型,并预测到105岁。
由于使用了补整后数据,而且年龄段相对较低,死亡率水平偏低,所以残差平方和的水平有了明显的下降。
结果表明(见表8),除了Weibull模型,其余模型的效果都还可以(见图5、图6)。
2000~2003数据模型及拟合结果
表8
模型
名称()死亡力函数()参
数()男性()女性估计结果()残差
平方和()估计结果()残差
平方和Gompertz()μ(x)=aebx()a()5.68E-6b()0.122()3.239()1.22E-60.1 407()0.551Weibull()μ(x)=axb()a()1.80E-15b()7.1344()5.624()1.124E-178.2751()1.076Logistic2()μ(x)=beax()1+beax()a()0.1229b()5.76E-6()3.364()0.1 4151.26E-6()0.561H-P()q(x)=aebx()1+aebx()a()5.54E-6b()0.1224()3.298()1.19E-60.1 411()0.555Kannisto()μ(x)=aebx()1+a(ebx-1)()a()5.41E-6b()0.1229()3.357()1.17E-60.1415()0.560注:由于迭代补收敛,Logistic3模型得不到估计结果。女性数据的估计也出现了同样的问题。
age
图52000~2003期望剩余寿命——男性
age
图62000~2003期望剩余寿命——女性
在建立CL2000~2003生命表时使用的是Gompertz模型,但在96岁前使用logistic2、hp和Kannisto模型的剩余寿命反而低于使用Gompertz模型的水平。这可能是由于建立模型时用的数据区间不同,而且预测时间太长的缘故。
通过上述分析可以得到以下主要结论:
建立模型的年龄段不同可能会影响到对模型拟合效果的评价。
1.对于50~65岁,可能是处于死亡率明显上升期,这时Gompertz的拟合效果就很好。但是整体上看,利用50~65岁死亡率数据预测到105岁会有较大的偏差。
2.在极高年龄段(80岁以上),死亡率规律可能有明显的变化,从而造成预测模型的不准确。
3.死亡率预测年龄越长,模型的偏差越大。
4.由于高年龄段死亡率数据量的局限,很难严格区分出哪个模型更适合进行高年龄的死亡率模型;但从死亡率发展的改善趋势以及高年龄死亡的选择效应来看,选择死亡率增长较慢的模型是比较合适的。
5.在极高年龄(80岁以上),由于人类寿命极限的影响以及死亡率选择效果的作用,可以假定不同国家和地区的死亡率差异会逐渐变小。如果这一假设成立的话,参考发达国家极高年龄的死亡率数据并结合不同模型的预测结果,可以作为研究我国高年龄人群死亡率的一种有效方法。
[参考文献]
[1]Zheng Yi, James W.Vaupel,Oldest-old Mortality in China.Demograhic Research, Vol.8, No 7.
[2]Robert McNown,Andrei Rogers,1989,Forecasting mortality: A parameterized time series approach.JSTOR,Vol.26,No.4.
[3]Humble Richrad,Love Hande,Ryan Daniel,Analysis of trends in mortality near or during retirement for four European countries.
[4]Ewa Tabeau, Anneke Van Den Berg Jeths,Christopher Heathcote,2001,Forecasting Mortality in Developed Countries.KLUWER ACADEMIC PUBLISHERS.
[5]国务院人口普查办公室,国家统计局人口与社会科技统计司. 中国2000年人口普查资料[R].
[6]经验生命表编制委员会.中国人寿保险业经验生命表(1990~1993)[S].
[7]中国保险监督委员会.中国人寿保险业经验生命表(2000~2003)[S].
[8]高惠璇译.SAS/STAT使用手册[M].中国统计出版社,1997.
[9]中国人寿保险业经验生命表(2000-2003)编制报告[S].中国财政经济出版社,2007.
[编辑:苏北]保险研究2007年第4期保险监管INSURANCE STUDIESNo.42007