数据挖掘中聚类和孤立点检测算法的研究

被引量 : 0次 | 上传用户:dong0003060
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效地利用巨量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。数据挖掘技术应运而生并得以迅猛发展,这是快速增长的数据量和日益贫乏的信息量之间矛盾运动的必然结果。数据挖掘,又称为数据库中的知识发现,是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。数据挖掘是一门新兴的技术,它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注,广泛应用于银行金融、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。聚类分析是数据挖掘中的一个重要研究领域。所谓聚类,就是把没有类别标记的样本集按某种准则划分成若干类,使类内样本的相似性尽可能大,类间样本的相似性尽可能小,是一种无监督的学习方法。聚类分析通常是在没有先验知识支持的前提下进行的,它所要解决的就是在这种前提下,实现满足要求的类的聚合。聚类分析的研究主要集中在聚类算法上,产生性能好而且实用的聚类算法是其终极目的。迄今为止,人们提出了很多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户,而且它们在理论和方法上仍不完善,甚至还有严重的不足之处。对聚类算法的进一步优化研究将不仅有助于算法理论的完善,更有助于算法的推广和应用。本文在分析了当前各种聚类算法的思想和方法的同时,针对目前基于划分的聚类算法存在的一些缺陷和不足,提出了基于粗糙集理论的聚类改进算法。解决了划分问题中不能准确设定聚类个数和只能用于挖掘球形聚类的问题,使得划分方法也可以用于发现任意形状的聚类。绝大多数现实世界中的数据库都包含了“噪声”和孤立点数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。因此,本文在分析研究现有基于距离的孤立点检测算法的基础上,针对其性能和精度上的不足,定义了一个新的相异度函数来度量孤立点的强弱,从而使孤立点的“孤立”程度有了一个量化的尺度,然后将该相异度函数作为遗传算法的适应度函数,提出了基于遗传算法的孤立点检测改进算法。在本算法中,用户只需指定要找的孤立点的个数,其他的一切均由该算法自动完成,这不仅减轻了用户的负担,也使得外界的影响达到最小。在综合数据集和真实数据集上的大量对比实验结果验证了该算法的正确性,同时在性能和质量上也比其它的孤立点检测算法更加合理有效。
其他文献
为了提升闭环供应链网络的协同运作绩效,在市场需求和回收产品供应数量不确定环境下,针对由一个进行拆卸、检验的联合回收中心,多个进行制造和再制造的生产工厂,以及多个进行
作为一项重要的诉讼制度,回避制度既有其自身的价值,又为实现实体公正、构建和谐社会提供重要保障。本文结合我国相关立法及司法实践现状,思考刑事回避制度的完善,并提出明确
数据收集和数据存储技术的快速进步使得各组织机构积累海量数据,如何提取有用信息已经成为巨大挑战。数据挖掘技术应运而生,并显示出强大的生命力。聚类分析是数据挖掘任务中
本期特稿以农村道路交通安全为主题,分析农村摩托车、面包车、接送学生车辆易引发事故原因;探讨加强农村道路交通安全的对策;以广西、云南、陕西、辽宁、海南为典型,对确保农
亚砜和砜类化合物具有广谱生物活性,如杀虫、杀菌、除草、抗肿瘤、抗HIV-1和抗结核等。近年来,亚砜和砜类化合物在农药方面得到了广泛应用,如安万特公司开发的亚砜类杀虫剂氟
文章介绍了昆山巴城一个会所的室内设计,探讨如何在室内空间设计中,通过现代设计手法,将室外园林景观引入室内,使景观、建筑和室内空间良好的结合,营造由外到内的具有建筑美
巴赫金的对话理论是Martin和White发展的评价系统中介入子系统的重要理论基础之一。可以从语言哲学观、对话性来源、对话性的体现三个方面来系统归纳巴赫金对话理论的基本内
朱践耳的交响合唱《英雄的诗篇》作为毛泽东诗词歌曲的代表作品之一,产生于特定的历史语境。作曲家根据题材的需要,在毛泽东诗词类歌曲的创作中独具创新,将交响乐与大合唱两
《救荒本草》一书,明太祖第五子朱橚(周定王)于永乐四年(1406年)首刊于当时藩王府所在地—开封。为我国最早的一部图文对照的食用植物学专著,今就其分类方法、记载项目及插图
为了调动学生的学习积极性,提高课堂学习效率。文章结合初中语文"学·导·用"课堂实践,以《土地的誓言》一课教学为例,从目标定位、先学设计、释疑导学、阅读回归等四个方面