基于信息论的特征加权和主题驱动协同聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:flyhiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据常用文档-词二维共现矩阵表示,大多数传统聚类算法属于单向聚类,即要么是对样本进行聚类,要么是对特征进行聚类,没有考虑到样本和特征之间自然存在的相互关系。尤其对高维、稀疏、带噪声数据,传统单向聚类方法在精度上很难满足实际需求。基于信息论的协同聚类算法从信息论的角度捕获了行列之间自然关系,同时从行向和列向进行聚类,相互协助、相互约束,对高维、稀疏数据也能起到高效聚类的效果。但该方法也存在一些不足,如没有考虑特征的重要性,另外该方法是一个无监督的学习过程,聚类后簇的可解释性不强,在聚类精度上也有提高的空间等。本文在基于信息论的协同聚类算法以及参考已有研究方法的基础上,做了两点探索性改进,即在原有无监督聚类的基础上,引入了主题知识,并对特征进行了加权处理。提出了无监督的特征加权的协同聚类算法和半监督的主题驱动的协同聚类算法两个改进算法。特征加权协同聚类算法用互信息计算特征权值,突出有效特征的重要性,在聚类精度和运行时间上得到了提高。在主题驱动的协同聚类算法中,首先建立了一个基于维基百科和开放分类目录的主题语料库,该语料库中定义了每个主题的描述和层次;然后通过协同聚类的方法将主题知识传播到文本聚类过程中,我们的目标是将相同主题下的文档聚在一起。通过实验证明,在聚类精度上我们提出的两个改进算法能得了更好的聚类结果。
其他文献
图像语义分析与描述是多媒体领域非常活跃的研究方向,研究目的是设计符合人类认知的算法和系统,实现图像信息的有效组织、管理和共享。图像语义分析与描述是图像应用软件实现商
大脑是一个非常复杂的系统,在这个系统中,多个神经元、神经元集群或者多个脑区相互连接成庞杂的结构网络,并通过相互作用完成脑的各种功能。大脑是神经系统的中心。神经系统复杂
随着经济全球化以及信息技术的高速发展,网络化服务的种类层出不穷,单一化服务已不能满足市场需求,组合服务的出现解决了这一危机。目前有关组合服务研究主要集中在组合服务
中文命名实体识别是指识别出文本中特定的实体。它是机器翻译、文本分类、信息检索和自动文摘、自动问答等多种自然语言处理技术的基础。作为信息抽取的基本任务,为了促进其
学位
近年来,系统融合方法在机器翻译研究领域受到普遍的重视,取得了不错的效果。然而传统的系统融合都是黑箱的融合。即只用每个系统的翻译候选结果进行融合,这样虽然有着适用性
目前,以P2P为核心的流媒体技术应用已经取得了长足的发展,但是在IPv4网络环境下,由于流媒体本身的强实时性、P2P网络的动态性以及网络条件的局限,P2P流媒体体系在网络规模、
随着市场经济的发展,市场竞争也日益强烈,服装的个性化、流行元素以及突出的季节性影响迫使服装企业必须快速的抢占市场。因此,服装企业的生产必需快速而高效,尽可能的缩短生产周
心电图学是一门实践性很强的学科,其理论比较复杂、抽象,是诊断学教学中的重点和难点。要搞好心电图教学,必须与临床实践相结合。而在传统的心电图教学中,通常采用纸质的心电
概念格是近年来获得快速发展的数据分析的有力工具之一。它通过Hasse图表现出概念之间的泛化和例化关系,已在知识工程、数据挖掘、信息检索、软件工程和数字图书馆等领域得到