基于局部信息和领域知识的聚类算法研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:b2316
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,各种信息处理系统和互联网快速发展,大量的数据随之产生。如何从这些数据中发现有用的知识就变得非常重要,因此,数据挖掘在近些年是热点研究领域。而在数据挖掘研究中,聚类分析是一种关键的非监督学习技术。本文首先就基于局部信息的聚类算法进行了深入的研究,包括基于局部回归的聚类算法研究和基于局部重构的聚类算法研究。其次,由于领域知识的应用在聚类分析的过程中很重要,所以本文就基于领域知识的聚类算法进行了研究创新。具体说来,本文的研究工作和贡献包含以下几个方面。   基于局部回归的聚类算法研究提出一种新的基于局部回归的聚类分析方法。该聚类方法基于局部学习的策略,以绝对值误差和作为簇标签错误度量,比以往文献中使用的平方误差和要更加合理和健壮。当与核回归相结合时,可以最终推导出一个谱聚类算法。在多个数据集上进行的实验结果表明,作者提出的聚类算法一般情况下效果较好。   基于正则化局部重构的聚类算法研究提出一种新的基于正则化局部重构的聚类分析方法。该聚类方法基于局部重构的策略,此策略在维数约减领域使用较多,可以用于处理高维空间的低维流形上的数据。根据这种策略,我们提出了一种基于正则化局部重构的聚类模型,并由此推导出一种新的谱聚类算法。在多个数据集上的实验结果表明,该聚类算法和之前提出的基于局部回归的聚类算法一般情况下效果较好。   基于特征顺序偏好的聚类算法研究首先,作者提出一种新颖的用于聚类分析的领域知识形式:特征顺序偏好。不同于聚类领域以前经常使用的实例层面的领域知识,这是一种特征层面的领域知识。然后,作者提出一个合理且自然的基于特征顺序偏好的聚类模型。此模型可以使用Bregman散度作为失真度量,这是一大类失真函数。该聚类模型易于扩展,可以使用更多的失真函数和权重惩罚函数;其正则化项可以采用泛化熵;还能够被扩展以处理离散数据。此外,作者给出了该模型的概率解释。在一些数据集上进行的实验结果表明,作者提出的基于特征顺序偏好的聚类模型确实能够提升聚类算法的性能。
其他文献
由于如今Web应用的高速发展所带来的数据规模的海量性、数据模式的多样性和不确定性,使得传统的数据管理技术在可扩展性、高效性和可靠性方面越来越不能满足应用的需求。数据
在数字图书馆建设中,人们面临着一个问题:如何高效地将现有的海量的纸质文档或者电子文档制作为可供计算机阅读、检索、查询、传播等操作的电子出版物。对于电子出版物,其所含有
随着硬件性能的不断提升,计算机正在被赋予越来越艰巨的任务,运行其上的软件作为沟通人类思维和底层硬件的桥梁,其重要性日益增加。与此同时,软件系统的规模也在不断变大,所涉及的
面向应用层的细粒度网络协议识别技术当前被广泛应用于上网行为管理、网络流量分析与控制和下一代防火墙等多种网络安全应用场景中,而随着网络应用数量的增长,待识别协议特征集
随着互联网上信息的逐渐增长,要找到某一方面的信息变得越来越困难。人们逐渐希望得到一种有效的方法来查找对自己有用的信息。使用搜索引擎进行搜索就成了检索信息的有效的方
嵌入式系统广泛采用Linux作为操作系统,它们大多数直接由标准的Linux移植过来,其内核的存储管理子系统对嵌入式系统硬件平台的可剪裁性支持有限,特别是没有专门针对众多无硬盘典
本文通过对目前比较流行的三维人脸动画技术的研究,提出了一种基于文本和语音驱动的人脸表情动画算法的实现,并拟将该算法运用到三维虚拟教学环境之中。通过虚拟教师面部表情的
随着电信网、互联网和广电网业务的发展,家庭用户的市场需求呈现出媒体互动化、业务多样化和终端综合化的特点,在国家信息产业“三网融合”战略的推进下,家庭手机屏、PC屏、T
随着当前网络技术的发展,数字图书馆拥有越来越庞大的数据资源,然而广大用户可能难以确定有效的检索词来获取需要的资源。针对上述问题,本文以国家“211”工程“中国高等教育文
目前,我国的电力设计行业在项目管理中还存在很多问题,其中最关键的问题就是工程设计流程不够完整和规范。对电力设计流程进行规范化建模和分析是提高电力设计效率的关键。Petr