论文部分内容阅读
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 目前的目录式搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。这里存在着巨大的人力和时间耗费。而且,通过关键词匹配的方式在WWW上检索信息,检索的结果是一个线性文档的列表,当返回结果多达几十页的时候,往往会耗费用户大量的精力,令用户腻烦。 本文通过对聚类分析技术、蚂蚁算法的分析,提出了利用知识进化类算法——蚂蚁算法实现搜索引擎中进化搜索的有效方法。首先阐述了搜索引擎的工作原理,性能指标,主要技术;分析了现有目录式搜索引擎的缺点,接着介绍了聚类分析算法与蚂蚁算法的理论,并论述了二者结合的可能性和必要性,这种结合方法也在一定程度上克服了聚类分析算法容易陷入局部最优的缺点,最终提出了通过使用蚂蚁算法建立二叉树、m叉树和树作为信息数据处理的思想,大大提高了搜索引擎搜索的效率。并在对实验数据分析的基础上,分别对已建立的二叉树、m叉树和树的方法加以改进,即在建立上述模型的过程中充分考虑到数据分布的密度信息,使得聚类效果有了进一步的提高。 在建立二叉树、m叉树和树的方法时,本文还分别进行了相关的比较,得到了一系列有意义的结论。