利用遗传思想进行数据划分的DBSCAN算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：xm_104

【摘要】

：

数据挖掘是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。聚类分析是数据挖掘领域中的一个重要研究课题。所谓聚类是将物理或抽象的集合分组成为

【作者】

：

孙思

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2005年期

【关键词】

：

数据挖掘聚类 DBSCAN K-means 遗传算法聚类中心

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。聚类分析是数据挖掘领域中的一个重要研究课题。所谓聚类是将物理或抽象的集合分组成为类似的对象组成的多个类的过程。由聚类所生成的类是一组数据对象的集合,这些对象与同一个类中的对象彼此相似,与其它类中的对象相异。在许多应用中,可将一个类中的数据对象作为一个整体处理。当分析一个较大的、复杂的、连续的、有许多变量的数据库和完全未知的结构时,聚类是一个非常有用的工具。目前,聚类分析算法大体上分为划分的方法,层次的方法,基于密度的方法,基于网格的方法和基于模型的方法。DBSCAN 算法是一种典型的基于密度的方法,该算法的优点是可以发现任意形状的聚类,且聚类结果受噪音点影响小。但是该算法存在如下缺点:当数据量过大时,算法对主存的要求较高;算法中需使用到全局变量Eps 和MinPts,若变量取值不当,会影响聚类质量;当数据分布不均匀时,采用全局统一的变量,会降低聚类质量。针对DBSCAN 算法的缺点,本文提出了一种利用遗传思想进行数据划分的DBSCAN 算法(Data Partition DBSCAN using Genetic Algorithm, DPDGA)。DPDGA算法采用基于遗传算法的方法确定聚类中心。这种基于遗传算法的初始聚类中心获取方法采用了K-means 算法的基本思想,但是它使用遗传算法而不是一般的迭代来进行逐步的优化。基于遗传算法的聚类中心获取方法的优点是不需要关于待分类数据的先验分布知识。实验证明,基于遗传算法的聚类中心选择方法所取得的聚类中心接近真实的聚类中心。在使用基于遗传算法的方法获得较优的初始聚类中心后,DPDGA 算法根据获得的初始聚类中心点划分数据集。对于划分得到的各个局部数据集,分别计算每个局部数据集的参数MinPts,然后对各个局部数据集分别使用DBSCAN 算法进行聚类,最后合并各局部数据集的聚类结果。DPDGA 算法由于划分了数据集,降低了对主存的要求。算法中提出了计算各局部数据集参数的方法,对于分布不均匀的数据集,由于各个局部采用不同的参数值,使得算法对全局参数的依赖性降低,聚类质量更好。

其他文献

基于Web平台的工作流管理系统的设计与实现

随着Internet/Intranet的日益普及和Web技术的不断进步,电子商务,这一计算机网络技术发展的产物,在日常生活中的地位与日俱增。作为社会经济的基本行为在网络时代的体现,电子

学位

工作流工作流管理系统XML工作流引擎

基于规则挖掘的网络故障管理技术的应用研究

计算机网络的稳定性一直以来都是人们比较关心的问题。提高网络稳定性的一个主要办法就是及时诊断出网络工作时出现的故障,给予网络管理人员决策指导。将数据挖掘技术应用于

学位

数据挖掘网络管理故障诊断关联规则告警数据库

基于调控范围语义相似性的致病基因预测方法

随着高通量实验技术手段的不断发展和完善，多种类型的分子生物学数据也在迅猛增加。比如基因序列数据、基因表达谱、功能注释、蛋白质相互作用关系、代谢路径以及基因调控通路

学位

致病基因预测调控范围语义相似性基因调控网络

网格计算中多用户协同计算的信任机制

网格是下一代的互联网,安全问题对于网格发展至关重要。网格安全问题要比一般的安全问题更复杂,需要在传统安全理论和技术的基础之上,进行创造性地研究。网格安全问题的研究

学位

网格协同计算身份信任行为信任访问控制

基于组合SVR的高炉铁水含硅量预测方法研究

准确预测高炉铁水含硅量是有效控制高炉的前提。结合时差(TemporalDifference，TD)方法的BP神经元网络(TD-BP神经网络)，已经在高炉铁水含硅量的预报方面取得了显著进展，对大部分

学位

高炉铁水含硅量支持向量机神经网络主成分分析

基于EAM的数据设计问题的研究与实现

企业信息化建设是企业提升竞争力的重要手段之一,企业资产管理(Enterprise Asset Management,EAM)作为企业信息管理思想之一,对于资产密集型企业,可以提高资产的可利用率、降低企业运行维护成本。数据设计的内容涉及数据库的设计、数据结构与算法等方面,本文针对当前EAM中存在的数据设计的问题,设计了资产层次结构中的数据结构与算法,完成了反规范化的数据库的设计。本文首先介绍了EAM

学位

企业资产管理编码方式层次结构数据库设计位置系统结构反规范化

基于安全评估的可信网络架构研究与设计

研究发现，当前网络中充斥着大量的“隐患终端”，又称为“不健康终端”，指的是存在安全隐患或正在发生安全事件的计算机系统。这些隐患终端不仅会成为被攻击的对象，还可能被攻击者

学位

访问控制安全评估可信网络漏洞检测OVAL

分布式地理信息系统研究及应用

分布式地理信息系统是地理信息系统(GIS)研究中的一个重要领域,它的目标是实现GIS互操作。本文讨论了分布式GIS的产生发展以及GIS互操作的研究情况,对分布式地理信息进行了分

学位

分布式地理信息系统GIS互操作本体元数据Web ServiceDAML

分布式入侵检测系统检测代理的研究与实现

本文对入侵检测技术进行了分析和研究,通过分析入侵检测领域亟待解决的一些问题产生的根源,提出了在基于软件代理的分布式入侵检测模型框架下,使用一种以增强型入侵检测引擎

学位

入侵检测分布式代理检测引擎协议分析虚警

提高基于SVM的网络入侵检测性能的研究

根据IBM日前发布的全球商务安全指数报告指出，2005年上半年，病毒和犯罪性安全攻击增长了50％，网络安全的形势日趋严峻，入侵检测是P~2DR安全模型的核心部分，也是整个计算机信息安全体

学位

网络安全入侵检测支持向量机遗传算法特征选择

利用遗传思想进行数据划分的DBSCAN算法研究

与本文相关的学术论文