论文部分内容阅读
本文在总结传统搜索引擎的基础上,提出了一种新的搜索引擎模型,并对其涉及的关键技术进行了深入研究,主要包括以下工作:
(1)在一个基于全文检索的搜索引擎系统的实现中需要解决两种与词汇相关的问题,即“忠实表达”和“表达差异”问题,这两类问题的实质就是词的不匹配问题。本文构建了一个利用动态知识库实现查询扩展的搜索引擎系统,其关键在于根据检索结果动态地构建知识库。主要思路利用特征词关系对来构建知识库。这样系统经过多次使用后,就可积累一定数量的人的知识经验,逐步建立起一个符合人的认识规律的知识库,而且知识库的内容可以在系统的使用过程中不断得到更新与补充。每当用户检索时系统就从动态知识库中提取相关概念以扩展查询。
(2)本文结合向量空间模型文档表示方法,针对Web页面的特殊性,对特征项权重的计算方法进行了改进,提出了一种基于HTML文档的向量空间模型。