聚类的边界点检测算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:yoclin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息。这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。聚类的边界点检测有时比聚类分析和孤立点检测更重要,但是聚类的边界点检测却不及聚类分析和孤立点检测受到重视。因此本论文重点对聚类的边界点检测算法进行了研究。论文首先介绍了数据挖掘、聚类分析、孤立点检测和聚类的边界点检测等基本理论以及几种主要的聚类分析算法、孤立点检测算法。本文详细介绍了一种典型的聚类的边界点算法BORDER,在实验的基础上讨论了BORDER算法的优缺点。针对BORDER算法时间复杂度高和精度不高的不足,本文提出了三种不同的聚类的边界点检测算法:噪声数据上的聚类边界点算法BOUND、改进的BOUND算法BRIM和基于引力的聚类边界点检测算法GREEN。并利用对象的反向K-近邻的性质,提出一种新的孤立点检测算法。在综合数据集和真实数据集上做了大量的实验来验证算法的有效性,并用不同规模的综合数据集来验证算法的响应时间。实验结果表明:本文提出的三种边界点检测算法的精度和执行效率均比BORDER算法高;本文提出的基于反向K-近邻的孤立点检测算法在保证精度的情况下,其执行效率高于典型的孤立点检测算法LOF。
其他文献
蛋白质的生物功能是由它们的空间折叠结构决定的,理解蛋白质的折叠过程是生物信息学领域中极具挑战性的问题之一。近年来,许多研究者从事蛋白质简化模型的研究,这些模型基于
本文对基于旋转平台的物体表面三维重建方法进行了研究。我们的测量装置由一个旋转平台和一台固定的摄像机组成,物体可随旋转平台旋转运动,摄像机固定不动。对该系统进行研究,具
入侵检测作为一种积极主动的安全防护技术,它不仅能检测未经授权的对象对系统的入侵,而且也能监视授权对象对系统资源的非法使用。随着因特网应用的日益普及,基于网络的入侵
随着信息技术的不断发展,软件复用和软件构件化越来越受到业界的广泛关注。当前的构件技术还是存在许多需要进一步改善的地方,譬如传统的构件描述与检索方式,由于缺乏丰富的构件
支持向量机(Support Vector Machine, SVM)作为近年来发展迅速的一种新型的、基于机器学习的一种模式识别算法,具有很好的推广能力,使其应用于多个不同的领域中。目前,SVM分
随着搜索引擎、社交网络以及聊天机器人等应用场景的发展和普及,短文本相似度计算在信息检索、文本分类、智能问答和机器翻译等研究和应用中发挥着重要的作用。传统的文本向
随着Semantic Web研究和Web2.0应用的发展,RDF数据被大量地发布。W3C发布的SPARQL查询语言和数据访问协议,担负着统一RDF查询和数据访问标准的重任。 课题旨在设计实现一个
采用转炉的方式是现在主流的炼钢手段,在转炉炼钢过程中,化渣是其中的一个关键过程。自动炼钢要求利用计算机技术对化渣状态准确、及时判定,作为控制系统实时调控的依据,使得炼钢
自九十年代产生以来,数据挖掘技术的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。在常见的非结构化数据如文本、图像、视频中,文本数据
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量纷杂的文本信息中及时准确地获得