文本聚类集成关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：ILOVELUBIN

【摘要】

：

聚类分析是数据挖掘、模式识别等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、语音识别、字符识别、图像分割和文本聚类等。另外,在生物学、地质学、地理学、市

【作者】

：

徐森

【出处】

：

哈尔滨工程大学

【发表日期】

：

2010年期

【关键词】

：

聚类分析文本聚类集成代数变换低维嵌入非负矩阵分解分裂—合并

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是数据挖掘、模式识别等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、语音识别、字符识别、图像分割和文本聚类等。另外,在生物学、地质学、地理学、市场营销和异常数据检测等方面也受到越来越多的关注。目前,已有上千种聚类算法,然而没有一种算法可以成功识别出具有不同大小、不同形状、不同密度甚至可能包含噪声的簇。文本数据具有高维、稀疏等特点,这使得许多聚类算法并不适用于文本聚类;另外,文本集规模的海量性对聚类算法的运行效率也提出了很高的要求。作为传统聚类算法的重要扩展,聚类集成技术具备了传统聚类算法所不具备的诸多优点。目前,聚类集成已经发展成为机器学习领域的研究热点之一。本文以文本聚类为应用背景,针对文本聚类集成中的关键问题进行了研究,取得的创新性研究成果包括:(1)鉴于谱聚类方法的诸多优点,本文将基于矩阵扰动理论和谱图理论的谱聚类算法引入到文本聚类集成问题中。针对谱聚类算法计算复杂度高的问题,本文基于代数变换,首先将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题,并进一步转化为小规模矩阵的特征值分解问题。由此设计了两个不同的文本聚类集成谱算法SMSA和TMSA。实验结果表明:本文的代数变换方法是切实可行的,代数变换前后算法的运行时间大幅度减少,而且获得的结果非常接近;SMSA和TMSA比基于图划分的聚类集成算法更优越,是解决文本聚类集成问题行之有效的方法。(2)本文研究了谱聚类算法的关键思想,从求解“最佳”子空间出发,同时推导出文本和超边的低维嵌入,由此设计了两个基于子空间相似度的聚类集成算法SSICA和SSDCA,实验结果表明:SSICA和SSDCA都获得了比基于图划分的聚类集成算法更优越的结果;SSICA的聚类质量略高于SSDCA。本文进一步泛化SSICA,设计出基于低维嵌入的文本聚类集成方法。该方法首先通过不同的谱聚类算法获得了超边的低维嵌入;随后通过映射的复合间接获得了文本的低维嵌入;最后根据文本在低维空间下的坐标使用简单K均值算法聚类。实验结果表明,该方法比其它常见的基于图划分的聚类集成方法优越,可以有效解决文本聚类集成问题。(3)本文将非负矩阵分解(NMF)引入到文本聚类集成问题中,设计了BNMF算法;由于NMF算法收敛速度较慢、易于收敛到较差的局部最优解,本文使用K均值初始化NMF,设计出NMFK算法;另外,针对K均值算法随机初始化所带来的聚类结果不稳定问题,本文使用最小最大原则确定K均值算法的初值,设计出NMFKMMP算法。实验结果表明:使用K均值算法初始化NMF是有效的,NMFK获得了比BNMF算法更加优越、稳定的结果,且运行效率也比BNMF高出许多;NMFKMMP算法可以有效解决文本聚类集成问题,NMFKMMP算法运行高效,并且获得了比其它常见的聚类集成算法更加优越的结果。(4)超球K均值算法不能有效识别非超球状的簇,因此易于产生精度较低的文本聚类集成成员。为了进一步提高文本聚类集成算法的聚类质量,本文在集成成员生成阶段引入了CHAMELEON算法的关键思想——“分裂—合并”(DM)策略。首先在聚类成员生成阶段运行使用DM策略的SKM算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用Ward算法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用本文设计的聚类集成算法进行集成。实验结果显示,除了基于图划分的聚类集成算法外,基于层次聚类方法的4个聚类集成算法以及本文设计的基于谱聚类方法、基于低维嵌入方法和基于非负矩阵分解方法的多个文本聚类集成算法在使用DM策略后获得的平均规范化互信息(NMI)都有不同程度的提高,这表明DM策略可以有效提高聚类集成算法的聚类质量。

其他文献

信贷业务违约现象研究及对策分析

《新巴塞尔协议》最主要的创新之一就是提出了计量信用风险的IRB法,而客户的违约概率是IRB法首要测算的指标,是划分客户信用级别的核心变量。因此如何判别客户是否违约、违约

期刊

违约概率信贷业务现象研究《新巴塞尔协议》IRB法信用风险信用级别事前防范

基于粒子群的水下图像分割与识别技术研究

近年来,随着海洋研究和开发的不断深入以及国防的需要,作为海洋高科技重要组成部分的智能水下机器人得到了广泛的应用。由于水下机器人常常需要在恶劣且复杂多变的环境中进行

学位

水下光视觉图像分割熵粒子群优化神经网络

我国计算机人才培养值得尝试的一种改革

我国计算机产业的迅猛发展需要大量的人才。目前我国高校，在计算机人才培养方面还难以适应计算机产业的迅猛发展。改革我国现今计算机人才培养模式，借鉴印度NIIT在培养计算机人

期刊

改革计算机人才教学质量

绿色消费群体心理特征分析及其启示

[摘要]本文根据消费心理过程，分析了绿色消费群体在认知过程、情绪过程和意志过程中的消费心理特征，并针对此特征论述了企业应采取的相应绿色营销方法。　　[关键词]绿色消费　绿色营销　消费心理

期刊

绿色消费绿色营销消费心理

主动脉夹层患者的临床观察

目的：提高主动脉分离患者的抢救成功率。方法：选择住院治疗的主动脉夹层患者56例进行密切地观察和护理。结果：56例患者的抢救成功率达91%。结论：正确的治疗和细心的临床观察能够

期刊

主动脉夹层心血管急重症护理

经济转型期广东工业化模式特征的探讨

2008年4月，广东省委、省政府颁布了《关于广东省加快建设现代产业体系的决定》，推动全省的现代产业体系建设。建立现代产业体系是对30年来广东工业化进程的继承与深化，是提高广

期刊

广东工业化工业化模式现代产业体系外源型经济经济转型期模式特征

土木工程施工中建筑屋面防水技术探讨

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

土木工程建筑屋面防水工程技术措施

平顶山市金牛山景区农业生态旅游经济发展思考

本文从分析金牛山景区农业生态旅游经济现状及问题入手,提出应从发挥政府引导作用、发展与保护并重、突出鲜明乡村、地域特色、招商引资、规范企业标准、提高从业人员素质等

期刊

农业生态旅游问题建议

生物视觉模型在自动目标识别技术中的应用研究

自动目标识别是当今世界军事技术研究中最具攻关性的课题之一,众多计算机视觉技术均应用于该课题的研究领域中。许多诸如物体边缘检测、空间位置估计和运动跟踪等对于生物视

学位

生物视觉感受野自动目标识别边缘检测运动估计目标跟踪

文本聚类集成关键技术研究

其他学术论文