论文部分内容阅读
随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网[1],2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在[2]。因此对文本信息的挖掘是从互联网上获取知识的重要途径。聚类技术在信息检索领域有着广泛的应用,有很多非常成熟的算法在各个方面承担着重要角色。传统的搜索引擎以列表的形式返回搜索结果,对于一个模糊的、语义不明确的、或者属于多个主题的查询词,不同语义、不同主题的搜索内容可能分散在长长的列表中,用户不得不花费大量的精力和时间从中查找符合自己查询意图的目标结果。这种情况下,一方面降低了搜索结果的质量,另一方面也使用户的满意度大打折扣。研究人员为解决此类问题提供了许多方法,其中对搜索引擎返回结果进行聚类成为解决这一问题的有效途径,并在实践中被不断的完善。Vivisimo [3],Infonetware RealTerm Search[4]都是非常成功的商业聚类搜索引擎。搜索结果聚类系统的输入通常是由传统搜索引擎响应用户查询所返回的一个搜索结果集,其中每一个搜索结果由题目、文本摘要和原始页面链接组成。输出是对结果集进行聚类后得到的一组有标签标识的聚簇。搜索结果聚类涉及到文本挖掘领域的多个方面,搜索结果文本的表示模型、短语相似度计算方法、搜索结果聚类算法的选择等。如何挖掘搜索结果中的关联信息,如何在语义层面上提取聚簇标签,这些都是搜索结果聚类技术的研究重点。本文提出了一种针对中文网页搜索结果进行聚类的改进方法。与传统的聚类技术着重于文本相似度计算和聚簇结构不同,搜索结果聚类将聚类标签的提取放在技术研究中最重要的位置。聚类标签的语义完整性、可读性、对聚簇的概括性是评价搜索结果聚类标签质量的重要指标。一个好的聚簇标签不仅可以有效的区分聚簇间的相互关系和彼此间的层次性,直观的表达各聚簇的主题,而且能够引导用户快速定位需要的信息和资源。本文通过本体的辅助改善聚类标签质量,对搜索结果的聚簇标签进行概念层次的提取,有效提高了聚类标签的可读性和概括性。本文的主要贡献如下:(1)提出一种用来识别含有较完整语义信息短语的方法,这种方法通过比较后缀树文本模型中基类属性和包含这些基类的文档重合数量来识别完整语义信息短语。(2)为了更好的反映短语间的关联度,本文采用了基于句子粒度的短语贡献度计算方法。(3)提出基类贡献度的概念,通过基类包含的词语个数、词语的词性等属性为基类分配合适的权重,从而判断一个基类是否有资格进入形成聚簇标签的候选基类集合。(4)通过本体层次化概念关系的应用,将可能成为聚簇标签的候选基类和本体中的概念进行匹配,并通过本体中概念之间的上下位等关系,为聚簇提取概括性更强、语义更丰富的概念作为标签,实现概念层次的标签提取,将聚簇的标签从一般的文本表示提升至语义表达的高度。