【摘 要】
:
数据挖掘是近年研究比较热门的信息技术之一,该技术广泛应用于各个行业。聚类分析是数据挖掘的一个重要部分。聚类算法都需要面对输入参数的问题:K-means等划分方法需要输入
论文部分内容阅读
数据挖掘是近年研究比较热门的信息技术之一,该技术广泛应用于各个行业。聚类分析是数据挖掘的一个重要部分。聚类算法都需要面对输入参数的问题:K-means等划分方法需要输入聚类的数量;DBSCAN等密度算法需要输入密度阀值参数。这些参数大多不容易获取。为解决参数问题,本文提出了一种新的分层聚类算法,该算法的思想是:首先利用单位距离对数据对象聚类,以产生数量比较多的原子聚类,再利用比较容易获取的参数对这个聚类结果优化,以取得最终的聚类效果。本文还分析了用代表点描述聚类的几种方法,提出了用边界代表点描述聚类的算法,该算法可用于大量数据的聚类。本文的工作如下:(1)提出单位距离的概念:对于空间的数据对象,在均匀分布的情况下,用对象之间的最短距离来聚类,聚类的结果是一个类,把这个平均分布情况下的对象之间的最短距离称为单位距离。对数据对象用单位距离聚类可以得到初始的低层的聚类(原子聚类)。(2)提出孤立点优化的思想:聚类结果中的孤立点可以认为是数据对象中的非正常数据,现实世界中,对于每一类数据对象,假设非正常数据出现的概率是一致的,则可以根据数据量和非正常数据出现的概率来估算聚类结果中孤立点的数量,并利用该参数对聚类结果优化。(3)结合单位距离和孤立点优化的思想提出基于单位距离的聚类算法,并对算法的实现步骤作了详细分析,并且用实验来比较该算法与CHAMELON算法聚类的结果。(4)给出把普通算法得到的聚类结果转化到边界代表点的方法并用实例说明该算法特点:用比较少的代表点教准确代表任意复杂图形的聚类,为大量数据的聚类提供了一个可行的解决方法。
其他文献
数字水印技术作为一门新兴的学科交叉的应用技术,是信息隐藏的重要分支。它是将标识作者版权的保护信息和认证信息嵌入到图像、音频、视频或软件等各种数字产品中,以达到区分
随着移动通信网络规模的日益增大,网络问题不可避免的会增加,因此网络优化成为今后网络运维工作的核心。目前网络优化的多数流程都是依靠手工来操作,工作效率低下,因此开发出
工厂选址问题是运筹学中一个经典而重要的问题。但随着社会的发展,为适应不同的实际情况,新的问题层出不穷。本文第1章介绍了选址问题的背景与选题动机,概述了全文的总体结构
人脸表情识别是人机自然交互、计算机视觉、模式识别和图像处理等研究领域的热点课题,是情感计算、人机智能交互的重要组成部分,具有良好的发展前景。然而,由于人脸面部表情承载
这些年来,由于互联网上的网页数量呈指数增长,爬虫要爬取的信息量过大,它的负荷太过承重导致搜索引擎更新自己的网页数据库速度过慢,不能及时更新最新的消息,因此,主题网络爬虫将变
大规模场景绘制技术是游戏编程世界中的热点技术,同时它在其它诸如GIS系统、飞行模拟系统、VR系统以及数字地球技术等领域都有着同样重要的作用。大规模场景绘制技术是虚拟现
随着科学技术的快速发展,卫星全球定位系统和无线通讯技术已经能够跟踪并记录移动对象的位置。同时,移动对象的连续运动也对数据库技术提出了新的要求和挑战,能够描述移动对
目前,企业内部的“信息孤岛”现象严重阻碍着企业信息化的发展,迫切需要好的企业应用集成技术来解决这些问题。传统的企业应用集成方案往往是点对点间的集成,在实际应用中存
近年来呼叫中心产业飞速发展,Internet和通信方式的革命使呼叫中心不仅能处理电话,还能处理传真、电子函件、Web访问,甚至是基于Internet的电话和视频会议。因此,现在的呼叫中心
饮水对人类的生活至关重要。饮水工程得到世界各国的高度重视,成为水务管工作的重点。为了改变饮水工程项目管理的手工作业方式,为农村饮水工程项目管理提供方便实用的软件工