论文部分内容阅读
异常挖掘是数据挖掘当中的重要内容之一,而针对不完全数据的挖掘往往更具有现实意义。不完全数据是很多领域都要涉及的问题,比如专家系统、人工智能、证券市场中的股票和证券走势的预测等等。处理这类数据现在比较通行的有三类方法:Gibbs抽样,变分法和EM算法。Gibbs抽样是一种最简单的且应用最广泛的MCMC方法,变分法是主要针对图模型中不完全数据的一种基于学习的逼近算法,EM算法是根据点估计中的极大似然估计来改进的迭代算法。回归系数的参数估计在线性模型估计理论与实际应用中占有重要地位。其中最小二乘估计因为其众多的优良性质而尤其突出,但当设计阵X存在复共线性时,最小二乘估计存在着很多缺陷,线性有偏估计则是改进最小二乘估计最直接的方法。统计学家已经提出了各种各样的有偏估计,其中,统一有偏估计将文献中常见的、影响较大的一些有偏估计概括在内,它包含了岭估计、主成分估计、Liu估计等等。有偏估计的目标就是以提高偏度来降低方差。但有偏估计毕竟还是偏离了真实值,因此许多统计学家提出了几乎无偏估计。关于这些参数估计的优良性,现在比较通用的有两大准则,即均方误差准则和Pitman准则。Pitman准则是由E.Pitman于1937年提出的一种关于评价回归系数参数估计优良性的准则。近年来围绕Pitman准则的研究使得Pitman准则成为目前统计参数估计理论研究的热门课题之一。本文的研究内容主要有:①对不完全数据的参数估计方法进行了回顾和总结。②作为对不完全数据参数估计的Pitman优良性的准备工作,讨论了约束型岭估计、几乎无偏统一有偏估计以及约束几乎无偏统一有偏估计的Pitman优良性,分别找到了约束岭估计估计优于最小二乘估计,几乎无偏统一有偏估计优于最小二乘估计和约束几乎无偏统一有偏估计优于约束最小二乘估计的椭球范围。③针对金融时间序列数据,运用时间序列模型进行了模拟和预测,并运用时间序列数据缺失值的处理方法对模型进行改进,提高预测的精度,并进行了实证分析。