论文部分内容阅读
随着计算机技术和网络技术的不断发展,Internet成为当今世界上最大的信息库。面对浩如烟海的信息,用户试图通过浏览Web来发现信息、检索信息已经越来越困难。搜索引擎是目前人们从Web上获取信息的主要工具,但是搜索引擎如Google、百度、雅虎等,返回的搜索结果缺乏清晰的结构,往往返回一个很长的、混杂相关信息和无关信息的搜索结果列表,用户不得不对列表中的结果逐个进行验证以得到所需信息,这给用户搜索到自己真正需要的信息制造了困难。因此,如何让用户更加准确而快捷地通过搜索引擎找到所需信息,成为一个非常重要而值得研究的课题。数据挖掘技术的出现,为解决此问题提供了新的思路。数据挖掘旨在抽取数据中隐含的、未知的、有用的、非一般的模式或知识。聚类作为数据挖掘的基本方法之一,通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的理解与认识。使用聚类技术对搜索结果进行处理,以更合理的方式将搜索结果返回给用户,使得用户能够方便地得到自己所需的信息。本文在对Web搜索引擎以及数据挖掘技术进行研究的基础上,针对该需求,提出一个在中文语言环境下、能够对搜索结果进行聚类处理的搜索结果聚类模型,并对其关键模块进行了实现。这一模型的主要思想是以Web搜索引擎返回的搜索结果作为输入数据,首先找到具有良好描述性、可读性的聚类标签,然后将相关的搜索结果分配到各个聚类标签下,经过后处理将搜索结果按照聚类类别的方式返回给用户,使用户能够更加便捷地找到所需的信息。在对该模型的设计中,我们在参考了两个经典的搜索结果聚类算法——SHOC和LINGO的基础上,充分考虑了中文语言相对于英文语言的特性、对原本针对英文的算法进行修改和调整,从而使得我们的模型能够在中文语言下得到更好的效果。