面向文本聚类的相似度计算方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:iq106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种基于无监督学习的知识获取方法,文本聚类是文本挖掘领域的一项重要技术。文本聚类在文档组织、信息检索、话题检测与跟踪等诸多领域都得到了普遍的应用,受到研究者的广泛重视,具有重要的研究价值。 如何提高聚类质量是当前文本聚类研究面临的最大挑战。本文的目标是使用有监督机器学习方法集成不同的相似度计算方法和各种语言学知识,通过优化相似度计算来提高文本聚类质量。 本文在多个标准测试集上,对文本聚类的相似度计算方法进行了系统研究,主要取得了如下一些研究成果: (1)研究了基于统计语言模型的文本聚类方法,并与向量空间模型进行了对比。比较了几种常见的数据平滑方法在文本聚类中的效果。针对统计语言模型的参数估计易受文档集影响的特点,提出一种把背景语料库的分布知识融入文本聚类计算的方法,有效地提高了文本聚类效果。 (2)将有监督的机器学习方法引入文本聚类,提出一种多特征集成的相似度打分方法,采用两种有监督学习方法训练打分系统的参数:支持向量机的方法和启发式搜索的方法。在此基础上,提出对不同特征相关度值进行规格化处理以及对参数搜索空间进行限制两种改进措施,提高了参数学习效率。实验结果表明,该打分系统可以有效地实现多特征的融合,并提高文本聚类效果。在此基础上引入各种语言学知识和语义知识,进一步改进文本聚类效果。把有监督的机器学习引入无监督的文本聚类,为提高文本聚类质量提供了一种新的研究思路。这是本文的重要创新之处。 (3)将语义关系与文本聚类相结合。本文将中文语义词典知网用于文本聚类,在实验多种语义概念与向量空间模型的结合方法的基础上,提出了一种语义关系和词语特征结合的多特征集成方法。同时,为了解决语义概念映射时概念映射级数与噪音同步增长的问题,提出一种基于概念相似度的权重调整算法。实验结果表明:两种方法均可以有效改进文本聚类效果。 (4)研究了多种文本表示单元在中文文本聚类中的效果,发现词、单字和双字特征是最好的三种文本表示单元。单字、双字和词三种特征具有互补性,但简单地把特征混合叠加到一起对聚类效果没有改善。本文提出一种基于线性加权的多特征集成方法,把三种特征融合到一起,有效地提高了文本聚类效果。 (5)将语言学知识引入文本聚类。本文比较了不同词类特征对于文本聚类的影响。实验结果表明:名词和动词是最重要的两种词类特征,仅用这两种特征就可以取得比较好的聚类效果。使用词类特征可以过滤掉很多特征,客观上起到特征选择的作用。本文将有监督机器学习和各种语言学知识引入文本聚类的研究与实践,为提高文本聚类质量的研究开拓了新的思路。
其他文献
近年来,随着大数据时代的到来,构建面向开放网络的知识库已成为国内外工业界和学术界研究的一个热点。虽然目前国内外多个研究机构建立了很多知识库,但是这些知识库对开放网络的
网络技术的高速发展与普及使其成为信息交互的主要手段。随着网络规模的渐大,接入网络中设备的数量和种类也随之越多,然而,这些资源并没有得到充分的利用。如果能有效地利用这些
信息检索系统使用日益复杂的模型及技术寻求改进检索结果的质量,在所有查询上取得了更好的平均检索性能的同时,某些查询可能会得到远远差于基准结果的检索结果,这些难以预期的检
随着信息网络时代的演进,信息数据量呈爆炸式增长,每年的增量率在60﹪以上,并且这个速度还在不断增长.数据的爆炸性增长导致存储环境的复杂,管理难度越来越大.与此同时,数据的
学位
随着计算机技术的发展和进步,应用程序所使用的内存空间越来越大。程序所使用的数据不可避免地要存放在速度较慢的大容量存储设备中,而大容量存储设备的访问速度与处理器的执行
伴随着机器翻译的不断发展,机器翻译评价技术也在不断发展中。最早出现的机器翻译评价方法是人工评价,人工评价方法的优点是能够得到准确的结果,但是也存在很严重的缺点。比如,采
由于无线通信网络存在物理信道误码率高、时变性强等特性,其媒体接入控制技术(MAC,Medium Access Control)就对无线通信系统的性能起着决定性的作用,因而一直以来MAC技术都是
生物信息服务具有异构性、分布性、多样性和复杂性,如何有效地利用分布在各地的服务资源、计算资源和数据资源是一个具有现实意义的问题。网格提供了在动态的多机构的虚拟组织
随着无线通信技术以及电子技术的飞速发展,低成本、低功耗以及多功能的传感器节点应运而生,每个传感器节点具有感知、存储、数据处理以及无线通信的能力.多个传感器节点的集