论文部分内容阅读
随着互联网行业如火如荼的发展,WWW信息资源得到蓬勃的增长,近年来人们越来越关注搜索引擎的研究工作,传统的基于关键字的搜索策略在目前已经发展得相当成熟,为了适应WWW飞速发展的步伐,主题爬行技术、基于语义理解的搜索策略和从Web数据库基础上发展起来的动态网页数据获取技术受到广大学者的关注,并已经在国内外展开了广泛的研究,取得了一定的研究成果。
本文的目的是通过对主题爬行相关技术、用户查询关键词的语义扩展、动态网页DeepWeb数据获取关键技术这三个方面的具体研究,从搜索精度和搜索深度上考虑,提高传统搜索引擎的查全率和查准率,提出基于语义理解和动态网页的主题爬行模型,该模型面向旅游领域,主要分为三大功能模块:用户查
询关键词的语义扩展模块、动态网页DeepWeb数据获取模块、结果页面排序模块。本文的主要研究工作:
1.主题相关性算法研究,在对通用网络爬虫和主题爬虫的基本原理的研究基础上,重点研究了基于向量空间模型的各种主题相关性算法,并在PageRank算法基础上提出了面向主题的T-PageRank算法。
2.领域本体知识库的构建,本文指出领域本体知识库的构建原理和基本步骤,并初步构建旅游领域本体知识库,为用户查询关键词的语义扩展和动态网页DeepWeb数据获取提供了基础。
3.用户查询关键词的语义扩展,通过对基于关键词的查询接口中用户输入的查询关键词进行本体解析,并在旅游领域本体知识库的基础上进行语义扩展,获得更充分理解用户查询需求的扩展查询关键词。
4.动态网页DeepWeb数据获取关键技术,指出动态网页数据获取的基本流程,并重点研究动态网页DeepWeb数据获取关键技术:DeepWeb查询接口form表单的发现技术、动态网页数据源的选择技术、动态网页DeepWeb查询接口模式抽取技术和查询结果页面信息抽取技术。
5.基于语义理解和动态网页的主题爬行模型,该模型结合主题爬虫、语义理解、动态网页三大技术的优势:通过对用户查询关键词的语义扩展,更好地理解用户的查询需求,提高了系统的查准率;通过动态网页数据获取技术挖掘深藏在Web数据库中的DeepWeb信息,扩宽了传统搜索引擎信息覆盖的范围,提高了系统的查全率;结合目前流行的垂直搜索引擎策略,抓取旅游领域内的web信息,缩小了网络爬虫的爬行领域范围减少了不必要的网络资源浪费,提高了搜索引擎的整体性能。并通过测试来验证本文提出的基于语义理解和动态网页的主题爬行模型的搜索性能优于通用网络爬虫。