演化聚类算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：victinfy

【摘要】

：

演化数据普遍存在于许多动态情景中,这类数据的分布会随时间而逐渐变化。演化数据的学习问题越来越受到重视,是机器学习和数据挖掘领域一个新的重要研究课题。而演化数据的聚

【作者】

：

陈钢

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2015年期

【关键词】

：

机器学习演化数据聚类时间平滑性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

演化数据普遍存在于许多动态情景中,这类数据的分布会随时间而逐渐变化。演化数据的学习问题越来越受到重视,是机器学习和数据挖掘领域一个新的重要研究课题。而演化数据的聚类问题研究有着广阔的应用背景,因此具有重要的研究意义。一般而言,演化数据聚类的过程是这样的：当系统有新的数据到来时,为这些数据进行聚类分析。如何使每一时刻的聚类尽可能真实地反映数据分布特征,同时保证聚类结果在时间上具有平滑性,聚类结果在时间上的平滑性如何量化和度量等,都是演化数据聚类的重要问题,也是本文的主要研究内容。具体而言,本文的工作主要包括以下几个方面：(1)提出一种基于差分进化的演化聚类方法deEC。利用演化算法在搜索最优解的优势,本文对平滑性框架的参数α进行改进,使之在算法每一次迭代过程中自适应,使聚类结果在聚类质量和时间平滑性两方面找到最佳平衡点。在deEC中,聚类结果在时间上的平滑性被解释为个体在不同环境的适应能力。如果当前时刻的个体在过去的环境中适值越高,说明个体所携带的聚类划分方案越能反映过去时刻的数据分布特征,表现出很好的平滑性。实验方面,本文通过合成数据和真实数据,对提出的算法进行实验验证。(2)从多峰优化的角度来研究演化数据的聚类问题。已有的演化聚类算法大多基于时间平滑性框架,通过加入带权重的惩罚项来保证当前聚类结果与过去结果的平滑性。本文从多峰优化的角度,采用多峰优化算法搜索全局/局部最优解,然后采用基于NMI指数的选择策略选出当前时刻的最优解。实验方面,本文采用合成数据和真实数据进行对比实验,并分析了算法的特点。(3)从数据级别上实现聚类结果在时间上的平滑性。已有的演化聚类算法大多在聚类模型的层次上保证聚类结果在时间上的平滑性。本文提出两种不同的技术,分别从数据级别上实现平滑性要求。这两种技术利用历史数据的发生规律来构建当前时刻的数据矩阵,并采用层次聚类算法得到最终的聚类结果。实验方面,我们采用合成数据和真实数据进行对比实验,并分析了算法的性能。演化数据的聚类问题,作为一种新的研究课题吸引了越来越多研究人员的兴趣。如何使每一时刻的聚类方案尽可能真实地反映数据分布规律,同时保证聚类结果在时间上尽可能地平滑,以及如何量化和度量时问平滑性,都是属于演化聚类研究的核心问题。为此,本文提出了一种基于差分进化的演化聚类方法,然后从多峰优化的角度,提出了一种新的解决方案,从数据层次上实现聚类结果在时间上的平滑性,并用实验进行分析和验证,对演化数据的聚类研究有重要指导意义。

其他文献

基于备份的移动自组织网络分簇策略研究

移动自组织网络(Mobile Ad Hoc Network, MANET)是一种无需基础设施支持的新型无线网络,具有组网灵活,易于移动与部署,抗毁能力强等特点,在军事行动、灾害救援、临时会议等场

学位

移动自组织网络分簇模拟仿真工具BH-3hBAC簇头备份机制

基于Struts框架和Hibernate的Web应用系统的研究

传统的Web体系结构在代码的移植、程序的可扩展性方面产生了众多问题;另一方面,JDBC作为持久层解决方案存在着很大的局限性,而EJB必须遵循各种J2EE规范,这增加了其开发的复杂

学位

Struts框架MVC模式ORMHibernate

基于MPI的集群计算系统设计与实现

科学技术的发展极大地促进了计算科学的进步。新一代计算机无论是计算能力还是计算速度都比以前的计算机优越，但是人类对计算的要求也在不断地提高。在实践中，有些单处理器不能

学位

Linux集群并行计算单系统映像集群中间件

MPEG压缩域运动对象提取算法研究

视频对象(Video Object, VO)的提取是视频信号处理领域研究的热点，在基于对象的视频编码、智能视频监控系统、人脸检测、目标识别、视频数据库检索等领域有着广泛的应用。由于

学位

视频对象视频信号处理视频编码对象提取压缩域提取提取算法

聚类中的特征学习研究

人类要认识世界就必须区分不同的事物并认识事物间的相似性，聚类是按照事物间的相似进行的一种无监督分类，是在对数据不作任何假设的条件下进行分析的一种工具，聚类已广泛应用于

学位

聚类算法特征评价函数Relief算法特征学习聚类

基于USB总线的高速数据采集系统设计

通用串行总线USB(Universal Serial Bus)是一种新型的微机总线接口规范。随着客户对系统数据采集速度要求的不断提高,USB以其使用方便、易于扩展、速度快等优点而越来越多的

学位

USB总线单片机数据采集固件Windows驱动程序模型设备驱动程序客户应用程序

基于RFID技术的产品防伪应用系统的设计与实现

当前在市场上假冒伪劣商品猖獗，打击假冒伪劣商品，保护消费者权益是倍受重视的问题。许多产品防伪技术应运而生，但大多数传统的防伪技术效果不够理想，消费者面对各种真假产品无法

学位

企业产品防伪技术电子标签射频识别

仿真机器人足球中球员合作策略研究

构造可以通过决策产生智能行为的智能体可以看作是人工智能现阶段的主要目标之一。各类决策算法使得智能体能够在多个方面近似做出人类可以做出的智能行为。在不确定性环境中

学位

机器人世界杯多智能体决策马尔科夫决策过程仿真2DMAXQ分层分解技术

工作流引擎及其在电子政务中的应用研究

工作流技术是近年来在计算机应用领域中发展最为迅速的新技术之一，它实现了系统中应用逻辑与过程逻辑的分离，是实现业务流程自动化的关键技术。工作流引擎作为工作流技术的核心

学位

电子政务工作流引擎轻量级J2EE

基于XML技术的工作流管理系统设计与实现

随着业务需求不断变化，业务流程的设计，优化和管理成为企业竞争的重要手段。目前工作流技术已成为流程定义，管理，监控的核心技术，工作流管理系统以工作流技术为基础，通过合理的调用

学位

工作流管理系统XML工作流引擎

演化聚类算法研究

与本文相关的学术论文