论文部分内容阅读
随着网络的发展,越来越多的人们在互联网上获取信息。搜索引擎作为用户与互联网交互的中转站,负责信息的获取和检索,给人们带来了极大的便利。但是,随着互联网上信息量的增长,搜索引擎返回的检索结果也日益繁杂,包含了很多不相干的、·重复的、混杂的结果。人们往往需要浪费很多的精力和时间来浏览这些信息才能找到满意的结果。因此,一些研究人员将信息检索中的聚类技术应用于搜索结果的分类中,将繁杂的搜索结果分类呈现给用户,这种方法称为搜索结果聚类。搜索结果聚类是指利用聚类这种无监督的机器学习手段,按照“最大化类内相似度,最小化类间相似度”的原则,将搜索结果聚集成类提取聚类标签给予用户一个类目导航。另外,搜索结果聚类对象不是传统的长文本而是搜索结果的短文摘。目前,搜索结果聚类技术多是采用独立的词语表示搜索结果短文摘,忽略了词语之间的语义关联等语义信息,存在严重的语义缺失。本论文针对搜索结果聚类技术中的语义缺失现象,对基于语义的搜索结果聚类方法进行了深入研究,主要的研究内容有:搜索结果预处理方法和建模方法,经典的搜索结果聚类方法以及基于语义的搜索结果聚类方法。另外,本论文在以上研究的基础上提出了基于OPTICS的搜索结果聚类算法和基于WordNet的后缀树聚类算法。这两种算法针对搜索结果聚类的语义缺失现象均提出了相应的改进,侧重于挖掘和利用搜索结果短文摘中的语义信息,以达到提高搜索结果聚类准确率的目的。最后,本论文在搜索结果数据集上进行了聚类实验,并对比分析了两种新算法的聚类性能。实验结果表明,本论文中提出的两种改进算法在聚类准确率方面较原算法有明显提高,并且缩短了运行时间,能够提高搜索结果聚类的可浏览性和实时性。