论文部分内容阅读
概率密度函数是统计学的基本概念之一。假设从某一未知总体中抽取一定数量的样本单元,密度估计就是利用这些样本单元去拟合总体的概率密度函数,f(x)。密度估计包括参数密度估计和非参数密度估计,两者有着本质的区别。前者是假设样本来自某一确定的总体分布,只是总体分布的参数未知,如正态分布N(μ,σ2),通过样本估计分布的参数,μ和σ2,并以此得到总体分布的概率密度函数。非参数密度估计是指在不假定总体特定分布情况下,直接利用样本观测值估计总体概率密度函数,(f)(x)。常见的非参数密度估计方法有:直方图估计、频率多边形估计、平均滑动直方图,核密度估计,最近邻估计;等。
本文将首先介绍最为经典的非参数密度估计方法:直方图估计,系统阐述面向样本的最优直方图制作方法。然后,讨论条件分组核密度估计的基本内容,它拥有比直方图更好的估计精度。最后,在直方图和分组核密度估计条件下,利用误差平方和,定义直方图-分组核密度估计,以此提出一个新的最优直方图制作方法。
本文的特色和创新之处有以下几个方面:
1.本文系统阐述了直方图理论和最优直方图制作的最新研究成果,重点强调面向样本的直方图制作方法。
2.定义一个新的概率密度估计方法:条件分组核密度估计。它在数据分析和处理方面具有广阔的应用场合。
3.讨论了分组核密度估计的渐近性质。证明条件分组核密度估计拥有与核估计相同的均方收敛速度,且其计算简便,等同于直方图。还研究了分组核密度估计制作的Cross-Validation方法。
4.在误差平方和条件下定义直方图-分组核密度估计误差,讨论了其渐近性质。
5.比较直方图-分组核密度估计理论和直方图制作的Scott公式,提出一个更加稳健的面向样本的直方图制作方法。更加稳健的面向样本的直方图制作方法。
6.在遗传算法基础上,构建求解直方图和分组核密度估计的边界点和最优组距的优化算法,以此替代传统的穷举法,其优点是计算简便且能得到估计的全局最优解。本文还用Monte Carlo方法讨论了边界点和组距对误差平方和的灵敏度分析。