论文部分内容阅读
多异常点识别问题是统计诊断领域中的一个难题,经典的统计诊断理论对此一直没有有效的方法,其中计算的复杂度和结果的粗糙性是很难克服的.本文的主要目的是针对这个问题,提出-套全新的解决方案。
本文采用贝叶斯框架,为每个数据点设置-个指示变量,用于说明该数据点是否为异常点,为确定起见,我们研究了线性模型的多异常点识别问题,以整个空间的均匀分布作为异常点的分布,之所以采用这一非正常分布,是因为在实际问题中异常点的来源是不清楚的,本文假定异常点个数是未知的.我们给每个参数设置了先验,由这些先验可以得到相应的后验分布,通过对这些指示变量所服从的后验分布进行Monte Carlo抽样,我们就可以估计每个数据点是否为异常点的概率.
为了检验我们的方法的精确性和有效性,本文进行了一系列模拟实验.实验结果是非常令人满意的:每组实验中正常点被当作异常点或者异常点被当成正常点的频率都很小,在十组实验中异常点被算法正确选择的频率都很高,几乎接近100%.而且,我们的实验结果对参数的依赖性很小。
上面的方法要求每次迭代都要对整个数据集进行扫描.当数据集比较大时,这种做法的计算量就会让人难以忍受,为了解决这个问题,本文还提出了识别异常点的另一种方法。这一方法的主要思路是模拟一个随机点过程,其中随机而变的点集为异常点集的样本.随机点过程的实现采用生死跳跃Markov链进行模拟.本文完成了这一方法的理论推导.由于时间关系,有关的实验只能留待以后的工作。