论文部分内容阅读
Internet的飞速发展和膨胀使得人们依靠网络来寻找所需的信息变得越来越难,由此也促成了网络搜索引擎的出现和不断进步。仅仅十几年的时间,如今,搜索引擎已经成为寻找Web信息不可或缺的主要工具并逐渐融入人们的生活之中。然而,随着网络的发展壮大和用户需求的拓宽和深入,现有的搜索引擎的弊端也日益凸现,数量众多的检索结果已经违背了搜索引擎查找信息便利的原则和初衷,结果聚类正是针对这一问题而开展的研究和探索。
本文主要分为五个部分:第一部分首先对搜索引擎的发展历史和目前状况作简要的描述,提出存在的主要问题由此确定了引擎聚类的研究话题。列举目前国内外的主要聚类系统,让我们看到中文引擎的聚类研究还需要不断提高。
第二部分分析了目前国内外对引擎聚类的理论和实践进展,理论部分的探讨是我们研究的基石,而通过图例方式展示主要聚类系统的成果又为本文系统的构造提供形象的轮廓。综合这些研究成果,文章总结了引擎聚类的工作模式以及其主要内容,这一部分在后面的章节中会有详尽的阐述。
第三部分尽可能详细列举迄今为止出现过的聚类算法,将其归为五大类,剖析每个类和代表算法的主要优缺点,作为我们选择聚类算法的借鉴。对照引擎聚类在相关度、类目描述、重叠性、聚类速度等方面实际要求,提出了线性复杂度的聚类算法--后缀树和后缀数组。二者都是基于字符串后缀的角度解析Web文档,但构造和使用方式是有很大差别的。
第四部分在上述分析的基础上,设计实现了中文引擎聚类的测试版CECT,采用后缀树作为主要聚类工具,详细阐述系统每个模块的实现过程,包括Web信息源选取、文档过滤、中文分词和统计、聚类类目确定、聚类后处理以及日志保存等。
第五部分按照类目区分度、类目描述和聚类速度三个主要指标对系统进行评价,针对测试系统的不足和改善搜索引擎的设想给出了一些可行的改进意见,这也能为系统的不断改善提供若干参考。
最后,对引擎聚类及本文做简要的总结,勾画了搜索引擎的美好明天。