论文部分内容阅读
随着计算机技术的普及以及互联网的快速发展,搜索引擎已经成为人们日常生活中必备的信息搜索与获取工具。虽然搜索引擎发展非常迅速,但其效果远未达到令人满意的程度。用户不得不逐页浏览检索结果,这种线性的检索结果呈现方式极大的降低了检索效率,已经成为用户快速准确的查找信息的一个瓶颈。 本文的主要工作是通过引入语义分析、文本聚类等自然语言处理技术,帮助用户了解整个检索结果的内容分布,从而建立高效的、实时的、层次化的检索模型。 本文首先分析了常见的基于划分、基于层次和基于模型等三类聚类方法,分析了衡量聚类性能的标准,并结合汉语自身的特点详细的分析了中文文本聚类中所涉及到的关键问题及其技术,给出了通用搜索引擎在线聚类的总体设计。 为了提高在线聚类的效率,本文采用了一种基于重复串的文本特征提取方法。通过这种方法提取出的短语特征具有相对完整的上下文语义,以及较好的统计特点,并能显著的降低特征空间的维度。 同时,结合k-means聚类方法,设计并实现了基于话题的搜索引擎在线聚类模块,借助重复串特征提取的结果实现了对聚类结果的话题标注。结合聚类的特点,设计了基于聚类的检索结果精度评估模型。 最后,在本实验中心构建的智能化Web信息检索平台(InarSE)上,进行了实验,对聚类结果进行了检索精度评估,并于通用搜索引擎的检索结果进行了比较。实验结果表明,与通用搜索引擎相比,基于话题的在线聚类方法极大的提高了检索精度。 本文的研究与探索为进一步研究搜索引擎的个性化技术,开发高质量的网络信息检索工具提供了良好的开端。