论文部分内容阅读
在风险分析和评估过程中,由于种种条件限制,在许多情况下只能搜集到少量的样本,即小样本,比如保险中的巨灾数据、豁免数据,健康险中的各种重大疾病患病情况数据等等。然而即使可以收集到所有的数据,但有时数据量不免会十分巨大,例如地震后的烈度分布调查、人口健康普查分析、民意调查等等。如果能通过采集少量的样本来研究整体水平,这样不仅节省时间,又节省人力和财力。因此如何充分利用有限的信息,挖掘出尽可能多的有用信息,做出比较符合实际的估计,这是本文所要关注的。1995年起北大的黄崇福教授提出了信息扩散理论;1998年开始,复旦大学尚汉冀教授和上海大学陆余楚教授合作,致力于小样本信息扩散的研究;2005年罗马尼亚的Mako对信息扩散技术也做了最新的研究。
本文的工作主要有:首先一维情况下,在原先均匀信息扩散的基础上,本文提出了非均匀的信息扩散方法。利用MaeCormack数值计算方法对非均匀信息扩散方程进行求解,随后根据尚汉冀教授提出的“最小波动准则”和“有限偏离度准则”进一步得到最优的扩散解。其次在二维情况下,提出了改进的带交叉项的信息扩散方法,其对原有的受单个参数控制的二维均匀信息扩散方式做了改进,通过构造一个概率扩散模型导出一个由三个参数控制的扩散函数,再根据两个优化准则进行参数优化。最后,系统地运用核估计方法、均匀信息扩散方法、非均匀信息扩散方法、改进的带交叉项的二维信息扩散方法,结合实际项目,分别对一维、二维两种小样本情况做研究,并对这几种估计方法进行了比较分析。本文所涉及到的数学方法有:模糊数学技术、信息扩散理论、偏微分方程、数值计算方法以及最优化技术。
本文的数据来源于上海市某社区从1997年开始实施的一项近2万条数据的富裕性疾病调查,我们主要选用其中的高血压患病情况资料。以调查项目中的原始数据作为大样本,以传统统计频率处理的大样本信息作为客观近似标准。再采用随机抽样的方法分别建立一维、二维小样本,分别利用核估计方法、均匀信息扩散方法、一维非均匀信息扩散方法、改进的带交叉项的二维信息扩散方法来研究高血压患病率关于年龄、BMI风险因素之间的关系,并与传统统计频率处理的大样本标准值进行比较,得到了较为满意的结果,也说明了这些方法在处理小样本问题上的有效性和可行性。通过这几种方法之间的比较分析,发现由于一维情况下的非均匀信息扩散方法和二维情况下的改进的带交叉项的信息扩散方法具有更大的灵活性,最终使得所估计的结果要略优于其它两种方法。本文立足点来自于保险中的一个实务问题,但其方法和研究结果对其他领域类似的小样本信息问题也是适用的。