基于统计的特异数据挖掘方法

来源 :外语学法教法研究 | 被引量 : 0次 | 上传用户:wooicheang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:特异数据挖掘的方法很多,但每种方法都有它的局限性,线性回归模型又是现实中应用较广泛的一种,因此本文提出了基于统计的数值和属性特异数据挖掘方法,不仅大大的提高了传统的挖掘方法的效率,还可以通过属性分析特异数据出现的原因。
  关键词:特异数据挖掘;线性回归模型;聚类分析
  【中图分类号】TP311
  1 引言
  特异数据是指在数据库中出现次数较少或跟其他数据之间的距离较远的一类数据[1]。它们中往往蕴含着重要的信息,因此如何更好的挖掘出这些数据并分析出现的原因,对人们从全局出发制定相关管理决策有至关重要的作用。而基于统计的挖掘方法是最早的[1],但传统的方法需先假定数据集服从一个随机分布模型,但当数据的分布未知或者不符合标准的分布时,这些方法就失效了。
  在统计中,线性模型是最基本的模型,虽在现实中许多变量之间的关系是非线性的,但经过适当的变换后仍可以达到近似的线性关系,鉴于此,主要研究基于线性回归模型下的特异数据挖掘算法。
  2 特异数据挖掘方法
  2.1 多元线性回归模型[2]
  随机变量 与其影响因素 之间的多元线性回归模型用矩阵表示为 ,其中
  , , ,
  回归模型拟合程度的好坏取决于参数向量 的估计值,而寻找参数向量 的估计值,常用最小二乘估计法,得到回归参数的估计为 。
  2.2 基于聚类的数值特异数据挖掘方法
  当回归模型拟合度较高时,可用因素的取值作为随机变量的属性值,且在没有异常数据干扰时,它们的效果是一致的,故如果两组数值的分析结果不一致,则必存在特异现象。
  聚类分析的主要目标是发现簇,而簇又可看作是特异数据(离群点)的补,故它可同时发现簇和特异数据。但不同的方法会得到不同的簇,因此传统的基于聚类的特异数据挖掘算法依赖于所有簇的个数和数据中特异数据的存在性。鉴于此,提出一种新的基于聚类的特异数据挖掘算法。
  算法的实现过程如图1:
  2.3 属性特异数据挖掘方法
  基于聚类的数值特异数据挖掘方法对于特异数据出现的原因未能解释,需要进一步的通过属性特异挖掘去解释。
  对于属性异常挖掘,主要通过高杠杆点集、拟合异常点和强影响点集三个角度挖掘,如图2中的A、B、C点分别为高杠杆点、拟合异常点和强影响点[3]。
  2.3.1 高杠杆点集的挖掘方法
  2.3.2 拟合异常点集的挖掘方法
  不与其余数据相适应的点称为拟合异常点。经验证,学生化残差 服从自由度为 的 分布,故当 时的点为拟合异常点。
  2.3.3 强影响点集的挖掘方法
  对回归模型的参数估计值有较大影响的点称为强影响点,经验证,设第i个数据点的库克距离 ,故当 时的点为强影响点。其中
  总之,属性特异数据挖掘方法的实现过程如图3:
  3小结
  线性回归模型在分析数据,寻找变量关系的应用中很广泛,具有广阔的应用前景,本文提出的基于统计的特异数据挖掘方法大大的提高了传统的挖掘方法的效率,但它是在无偏估计的基础上进行研究的,因此今后可在有偏估计的基础上进一步研究。
  参考文献
  [1] Pang-Ning Tan Michael Steinbach Vipin Kumar著.范明 范宏建等译.数据挖掘导论[M].人民邮电出版社,2007
  [2] S.韦斯伯格著(Weisberg,S.),王静龙等译.应用线性回归[M].北京:中国统计出版社,1998.3
  [3] 孙广山.線性回归模型影响分析及异常点的统计诊断[D].东北林业大学,2011
  [4] 赵进文.复杂数据下经济建模与诊断研究[M].科学出版社,2004
其他文献
当代最杰出的音乐家、钢琴家之一,格里高利·索科洛夫(Grigory Sokolov)1950年4月18日生于列宁格勒(圣彼得堡),并在那里随利亚·杰里克曼完成了专业音乐中学的学业。1973年
为了满足一些建筑对于底部大空间和建筑综合功能的要求,发展形成了带转换层的高层框支剪力墙结构体系。但此类结构由于转换层与其他各个楼层在刚度上、质量上等存在较大差距,
耶鲁大学音乐学院钢琴系主任、钢琴家鲍里斯·贝尔曼(Boris Berman,1948-),是首位录制普罗科菲耶夫全部钢琴作品的钢琴家,他的著作《钢琴大师的教学笔记》(Notesfromthe Pianis
降低发电厂的燃烧污染物排放,符合环境保护的要求,根据燃烧状态对锅炉的燃烧进行优化能有效控制污染的产生,且能避免锅炉熄火和爆炸等事故,从而使得锅炉能安全经济地运行,但
建国以来江苏省盐业史上第一部志书《江苏省志·盐业志》出版问世了。1997年12月10日,江苏省盐务管理局、江苏省盐业公司在连云港隆重举行了首发式大会。
随着广东省茂名市电白区望夫河特大桥最后一片轨排的铺设完成,建设单位顺利完成了深茂铁路茂名段小里程方向的铺轨任务,也意味着铺轨施工将进入阳江,为加快工程施工进度、确保项
目的比较两种在根管预备过程中对根管冲洗的方法对根管治疗疗效的影响。方法对100例下颌第一前磨牙牙髓病变已波及根髓.牙髓部分坏死但无根尖周炎的恒牙分为两组。试验组50例,
2019年8月14至18日,由中国社会经济文化交流协会主办,全国十四个省、直辖市钢琴学会协办的“第十二届上海国际青少年钢琴大赛”(以下简称“上青赛”)总决赛及相关系列活动在
大西客运专线上白隧道洞身范围内均含有不同程度的砂层,开挖过程中有大面积的砂层滑落,导致隧道初期支护无法正常施工。经研究决定采用深孔高压注浆,这一方法能使砂层围岩的自稳
马尔可夫过程是一类重要的随机过程,它有极为深厚的理论基础,如拓扑学、函数论、泛函分析、近世代数和几何学,又有广泛的应用空间,如物理、化学、生物、天文、计算机、通信、