参数改变的重复聚类问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:blue_lnan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的主要技术之一,在各种领域的用途广泛,用户借助于对数据集的聚类分析来挖掘数据集中数据对象的分类模式。聚类分析挖掘过程和分类不同,是在无导师监督的情况下进行的,用户不具备对于所处理数据集的先验知识,为了得到满足实际需求的聚类结果,用户需对同一个数据集进行参数改变下的重复聚类,其原因在于:(1)由于缺乏先验知识,用户不能给出聚类算法的适当参数,而当前的聚类算法大都对于输入参数敏感,这时需要通过重复聚类寻找其最佳的参数及对应的聚类结果。(2)用户也常常会人为地调整参数,以了解不同参数下的聚类结果,而有些聚类算法对于初始条件敏感,即使输入参数相同,由于初始条件不同,得到的聚类也是不同的,常会陷入局部最优,参数调整后还需要进行重复聚类以得到较好的一个聚类结果。本文针对重复聚类的优化与效率问题进行研究,给出相应的解决方法,所做的主要创新工作如下: 对上述两种需要进行参数改变的重复聚类的情况进行了概括,给出了其形式化定义,定义其为以输入参数作为决策变量、以评价对应聚类结果的基于相对标准的有效性函数为优化函数的非线性规划问题: min(max)f(C)s.t.Palg∈D其中,Palg为输入参数,约束条件D表示参数的允许取值范围。对于用户人为调整参数的情况,D表示用户指定特定参数值;在参数未知的情况下,D表示参数可能的取值范围;C为Palg对应的最佳聚类结果。 制定了适用于作为重复聚类问题优化函数的有效性索引函数:IECC索引和ComSep索引,这两个索引函数不仅能够对聚类结果的整体情况作出评价,而且还能够对聚类结果中簇的具体分布情况作出评价。IECC索引速度较快,但是主要适用于只包含凸形簇的聚类结果,应用范围较窄。ComSep索引可以评价出包含任意形状簇的聚类结果的性能,应用范围更加广泛,但是计算时间复杂度比IECC高。 给出了参数改变时重复聚类问题的可继承算法和迭代优化方法。由用户调节的参数改变下的重复聚类问题,主要通过对现有聚类结果的继承,避免新聚类结果受到初始条件的影响而陷入局部最优,以较快的速度得到质量较好的新聚类结果。对于用户未知参数的重复聚类问题,本文深入地研究了有效性索引函数各组成项与输入参数之间的关系,利用在最佳参数附近簇内紧密程度关于输入参数曲线曲率最大这一特性,得到最佳参数的近似值,把参数限定到有效性索引函数包含极小值的单谷部分,利用改进的步长加速法求得极值,即最佳的参数和其对应的聚类结果。 本文对不同参数对应聚类结果中簇的可能变化情况进行分析,指出在参数变化时应该引起用户的注意、需要报告出来的聚类结果变化情况,并提出通过比较聚类结果中各个簇几何信息得到。本文采用CF簇表示方法,通过其储存的信息可以快速有效地得到所需要的几何信息,给了检测聚类结果变化的CA检测算法,实验表明该算法能够有效地检测出不同参数下聚类结果中簇分布情况的变化,提供给用户关于不同聚类模型变化的知识,以指导其更好地进行决策。
其他文献
近年来,手机和PDA(PersonalDigitalAssistant,个人数字助理)等无线终端越来越普及。支持KJAVA技术和具有GPRS无线上网功能、大容量存储、高运算能力和宽屏幕的智能手机不断推陈
聚类分析(Clustering Analysis)是数据挖掘研究中一个十分重要的研究方向,数据对象的聚类过程是一种无监督自学习的数据分类过程,聚类分析算法研究是一个极具挑战性的研究课
词语处理技术是基于词一级中文信息处理应用的重要基础,也是中文信息处理技术的瓶颈。词语处理首先需要解决的是词语切分问题。目前自动分词系统性能,在歧义切分处理方面已经达
车载自组网(Vehicular Ad Hoc Network, VANET)属于一种特殊的Ad Hoc网络。VANE T不仅可以应用在行车安全方面,而且在导航和智能交通领域表现出色。未来在新闻、视频会议等以
数据密集型应用对存储系统的性能和可靠性都有着非常高的要求,但长期以来人们使用的硬磁盘(Hard Disk Drive, HDD)由于其物理结构的限制,不能很好的满足这两个要求。而基于NA
目前,人们已将信息管理技术应用到岩土工程中来,开发了许多具有可视化查询分析特征的信息管理系统和稳定性评价系统。这些系统的开发建设为岩土工程信息化起到了很大推动作用
随着电子商务规模的进一步扩大,用户数目和文档资源急剧增加,导致用户数据的极端稀疏性和系统扩展性问题。传统协作推荐算法都无法完全解决这些问题,针对Web个性化信息推荐(W
随着我国“以信息化带动产业化”战略的实施,以微处理器为核心的嵌入式系统广泛应用于各种工业和民用设备中,嵌入式系统也早已经融入了我们生活的方方面面。随着嵌入式系统的发
在现代电力市场环境下,电力系统的可用输电能力(ATC:Available Transfer Capability)指输电网络对电力市场还能提供的最大传输容量。它是衡量电网传输容量,反应系统安全性和可靠性的一项重要指标。为了保证电力系统的安全运行并且获得最大的经济效益,必须快速准确的计算ATC并将其值公布于网络开放实时信息系统(OASIS:Open Access Same-time Informat
BACnet (A Data Communication Protocol for Building Automation and Control Networks,楼宇自动控制网络数据通讯协议)协议,是美国暖通、制冷和空调工程师协会ASHRAE研究