文本聚类集成关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ILOVELUBIN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘、模式识别等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、语音识别、字符识别、图像分割和文本聚类等。另外,在生物学、地质学、地理学、市场营销和异常数据检测等方面也受到越来越多的关注。目前,已有上千种聚类算法,然而没有一种算法可以成功识别出具有不同大小、不同形状、不同密度甚至可能包含噪声的簇。文本数据具有高维、稀疏等特点,这使得许多聚类算法并不适用于文本聚类;另外,文本集规模的海量性对聚类算法的运行效率也提出了很高的要求。作为传统聚类算法的重要扩展,聚类集成技术具备了传统聚类算法所不具备的诸多优点。目前,聚类集成已经发展成为机器学习领域的研究热点之一。本文以文本聚类为应用背景,针对文本聚类集成中的关键问题进行了研究,取得的创新性研究成果包括:(1)鉴于谱聚类方法的诸多优点,本文将基于矩阵扰动理论和谱图理论的谱聚类算法引入到文本聚类集成问题中。针对谱聚类算法计算复杂度高的问题,本文基于代数变换,首先将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题,并进一步转化为小规模矩阵的特征值分解问题。由此设计了两个不同的文本聚类集成谱算法SMSA和TMSA。实验结果表明:本文的代数变换方法是切实可行的,代数变换前后算法的运行时间大幅度减少,而且获得的结果非常接近;SMSA和TMSA比基于图划分的聚类集成算法更优越,是解决文本聚类集成问题行之有效的方法。(2)本文研究了谱聚类算法的关键思想,从求解“最佳”子空间出发,同时推导出文本和超边的低维嵌入,由此设计了两个基于子空间相似度的聚类集成算法SSICA和SSDCA,实验结果表明:SSICA和SSDCA都获得了比基于图划分的聚类集成算法更优越的结果;SSICA的聚类质量略高于SSDCA。本文进一步泛化SSICA,设计出基于低维嵌入的文本聚类集成方法。该方法首先通过不同的谱聚类算法获得了超边的低维嵌入;随后通过映射的复合间接获得了文本的低维嵌入;最后根据文本在低维空间下的坐标使用简单K均值算法聚类。实验结果表明,该方法比其它常见的基于图划分的聚类集成方法优越,可以有效解决文本聚类集成问题。(3)本文将非负矩阵分解(NMF)引入到文本聚类集成问题中,设计了BNMF算法;由于NMF算法收敛速度较慢、易于收敛到较差的局部最优解,本文使用K均值初始化NMF,设计出NMFK算法;另外,针对K均值算法随机初始化所带来的聚类结果不稳定问题,本文使用最小最大原则确定K均值算法的初值,设计出NMFKMMP算法。实验结果表明:使用K均值算法初始化NMF是有效的,NMFK获得了比BNMF算法更加优越、稳定的结果,且运行效率也比BNMF高出许多;NMFKMMP算法可以有效解决文本聚类集成问题,NMFKMMP算法运行高效,并且获得了比其它常见的聚类集成算法更加优越的结果。(4)超球K均值算法不能有效识别非超球状的簇,因此易于产生精度较低的文本聚类集成成员。为了进一步提高文本聚类集成算法的聚类质量,本文在集成成员生成阶段引入了CHAMELEON算法的关键思想——“分裂—合并”(DM)策略。首先在聚类成员生成阶段运行使用DM策略的SKM算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用Ward算法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用本文设计的聚类集成算法进行集成。实验结果显示,除了基于图划分的聚类集成算法外,基于层次聚类方法的4个聚类集成算法以及本文设计的基于谱聚类方法、基于低维嵌入方法和基于非负矩阵分解方法的多个文本聚类集成算法在使用DM策略后获得的平均规范化互信息(NMI)都有不同程度的提高,这表明DM策略可以有效提高聚类集成算法的聚类质量。
其他文献
《新巴塞尔协议》最主要的创新之一就是提出了计量信用风险的IRB法,而客户的违约概率是IRB法首要测算的指标,是划分客户信用级别的核心变量。因此如何判别客户是否违约、违约
近年来,随着海洋研究和开发的不断深入以及国防的需要,作为海洋高科技重要组成部分的智能水下机器人得到了广泛的应用。由于水下机器人常常需要在恶劣且复杂多变的环境中进行
我国计算机产业的迅猛发展需要大量的人才。目前我国高校,在计算机人才培养方面还难以适应计算机产业的迅猛发展。改革我国现今计算机人才培养模式,借鉴印度NIIT在培养计算机人
[摘要]本文根据消费心理过程,分析了绿色消费群体在认知过程、情绪过程和意志过程中的消费心理特征,并针对此特征论述了企业应采取的相应绿色营销方法。  [关键词]绿色消费 绿色营销 消费心理
目的:提高主动脉分离患者的抢救成功率。方法:选择住院治疗的主动脉夹层患者56例进行密切地观察和护理。结果:56例患者的抢救成功率达91%。结论:正确的治疗和细心的临床观察能够
财务管理作为财经类专业的核心课程之一,是一门应用型的学科。传统的教学方法过分注重理论知识的讲授,忽视了学生应用能力的培养。根据高职院校学生的特点改进现有教学模式存在
2008年4月,广东省委、省政府颁布了《关于广东省加快建设现代产业体系的决定》,推动全省的现代产业体系建设。建立现代产业体系是对30年来广东工业化进程的继承与深化,是提高广
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文从分析金牛山景区农业生态旅游经济现状及问题入手,提出应从发挥政府引导作用、发展与保护并重、突出鲜明乡村、地域特色、招商引资、规范企业标准、提高从业人员素质等
自动目标识别是当今世界军事技术研究中最具攻关性的课题之一,众多计算机视觉技术均应用于该课题的研究领域中。许多诸如物体边缘检测、空间位置估计和运动跟踪等对于生物视