大型数据集中离群数据挖掘算法研究及应用

被引量 : 0次 | 上传用户:a372092
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,数据挖掘在很多领域都是比较热门的一个话题,它是一个从大量的原始数据中发现潜在知识的过程。离群挖掘的主要目的是从大量的、不完全的、有噪声的各种数据中,发现隐含在其中的人们事先不知道但又具有潜在价值的信息或者知识。而离群数据是这样一种数据:它明显偏离其它数据、不满足数据的一般模式或者行为。离群点可能是“噪音”,但也可能是有意义的事件。实际情况下,在某些应用中,那些很少发生的事件很可能比经常发生的事件更有研究价值。因此,离群数据挖掘是一项非常重要且有意义的研究工作。离群数据挖掘已广泛应用于股票市场、电信、金融、入侵检测、天气预报等许多领域。离群数据挖掘包括两部分:离群数据检测和离群数据分析。本文主要研究了离群数据挖掘中的关键问题——离群数据的检测,通过分析几种离群数据挖掘算法的优缺点,提出了基于两次聚类的KNN离群数据挖掘算法,并通过在综合数据集上的实验验证了算法的准确性、高效性以及扩展性,最后将此算法应用于一个论坛注册用户行为的挖掘。本文的主要工作包括如下几方面:1.阐述了离群数据挖掘的国内外现状及其研究的意义、离群数据挖掘的过程及其与数据仓库的关系。综合分析了现有的离群数据挖掘算法,研究了常用的几种离群数据挖掘算法,分析了它们的优缺点、适用范围等。2.详细分析了两种基于KNN的离群数据挖掘算法,并在这两个算法的基础上提出了基于两次聚类的KNN离群数据挖掘算法,在综合数据集上的实验结果表明:基于两次聚类的离群数据挖掘算法是准确的,且较之于原算法更加高效。3.将基于两次聚类的算法应用于一个论坛注册用户的行为分析,结果证明了算法的准确性。论文通过在综合数据集以及真实数据集下进行的实验来评估基于两次聚类算法的性能。实验数据分别来自于UCI机器学习库、自动随机生成数据和一个团购导航网站论坛的注册用户。实验结果表明该算法准确且高效,实验取得了令人满意的结果。
其他文献
睡在Nike枕边的安德玛,像一头巨兽,步步紧逼。在安德玛服饰创始人和CEO凯文·普兰克的办公室内外,从地板到天花板的整面白板墙上写满了这些年团队的座右铭:“促进必然之事”
众所周知,汉语和日语中有很多相同的汉字,这是中日词汇交流的结果。中日词汇的交流经历了不同的时期,其中尤以19世纪-20世纪初的词汇交流最为兴盛。这一时期,中日两国积极创
由于SRC异形柱承载力高、抗震性能好,因此具有广阔的应用和发展空间。目前对SRC异形柱的计算理论还在摸索阶段,有关承载力计算与设计方法目前还没有统一的国家标准,因此有必
机组频率是水电站工作的主要参数,测频结果的准确性将直接影响水电站机组运行及电网稳定性。本文提出了一种基于残压测频、齿盘测频的复合判据模式。最终经水电站机组静态试验
<正>咳嗽是呼吸系统疾病的常见症状之一,也是人体的一种保护性动作,通过咳嗽有利于清除呼吸道的分泌物和有害因子。一般轻度而不频繁的咳嗽无须应用镇咳药治疗,但无痰而剧烈
正交异性钢桥面板自其产生以来就以其自重小,刚度大,施工方便等优点得到了广泛的应用。而在其使用过程中,问题也随之而来。结构方面的问题主要集中在由于其构造细节的应力集中产
建筑节能是解决我国能源问题的根本途径,而建筑节能最直接有效的方法是使用保温隔热材料,胶粉聚苯颗粒保温浆料、EPS板、XPS板等。本文主要以外墙外保温为主要的研究对象,研
奥地利女作家英格博格·巴赫曼(Ingeborg Bachmann,1926-1973)被誉为奥地利当代最优秀的作家之一。《三十岁》是巴赫曼的第一本小说集。它不同于其他小说,关注的并不是命运和情
指出传统农村污水处理工艺的不足,重点介绍了MBR一体化污水处理设备主要工艺、设备优势,并分析了MBR一体化污水处理设备应用情况,指出未来MBR一体化污水处理设备的发展方向。
小学阶段的各门课程,不仅可以对学生进行知识的传递,更可以让他们在丰富多彩的班级活动中得到社会实践、人际交往等方面的能力。本文把握综合实践活动教材内容,迎合小学生成