论文部分内容阅读
Deep Web是指那些没有固定的超链接,不能被传统的搜索引擎检索到,而是由后台数据库根据用户的搜索请求动态生成的Web页面;与静态Web页面相比,Deep Web中存储的信息具有较高的价值和权威性。随着Internet的飞速发展,Deep Web中的信息量也在快速地增长。因此,如何有效获取Deep Web中的信息资源是大家都在关注的话题,具有很现实的重要意义。本文就如何有效获取Deep Web中存储的数据信息,提出建立一个基于本体查询关键词库,以实现Deep Web数据信息获取过程中查询表单的自动填充,解决Deep Web信息搜索过程中存在的问题,如由于数据异构导致不能统一获取数据、通过手工获取数据成本高以及根据搜索结果建立的本地数据库不能及时更新等问题。目前电子商务的发展已经成为Deep Web发展的主要驱动力量,本文以电子商务网站为例,重点介绍了如何构建合适的基于电子商务领域本体的查询关键词库,如何利用查询关键词库实现电子商务网站的信息集成,使本地数据库具有实时性、有效性和完整性。本文的主要工作和创新点包括以下几点:1、分析目前Deep Web信息搜索技术,提出构建一个基于本体的查询关键词库以实现Deep Web数据集成。获取Deep Web数据是Deep Web数据集成的首要工作,Deep Web数据需要通过Deep Web页面上的用户查询接口来获取,查询关键词库可以对用户查询接口自动提供查询关键词,实现Deep Web数据获取过程的自动化。为了获取更全面更专业的数据,要求查询关键词库包含的关键词是有效而全面的。本体可以将某一领域内的所有概念通过语义关系联系起来,根据本体构建的关键词库就能够包含领域内所有的概念集合,提高Deep Web信息搜索的查全率。2、使用本体构造工具Protégé和本体描述语言OWL半自动地构建了电子商务领域本体。构建一个基于本体的查询关键词库,首先需要建立一个完整的、准确的本体。本文分析目前存在的几种本体构建方法的特点,将目标本体的构建分为本体需求分析、领域知识获取、本体设计、本体实现和维护五个阶段。根据电子商务网站中的数据特征,使用本体构造工具Protégé和本体描述语言OWL半自动化地构建了电子商务领域本体。3、在UNIX系统环境下构建存储本体层次关系的树形目录文件,生成初始关键词库。本体的存储有文件存储和关系数据库存储两种方式。根据本体中概念的层次结构特点和UNIX系统对于文件系统操作的快捷性以及良好的可移植性和安全性等特点,本文采用UNIX环境下的文件存储方式。将本体中的概念和概念之间的关系采取特定的映射方式映射到树形目录文件结构中,并通过编码生成树形目录文件结构中的文件夹和文件,形成查询关键词库。4、对关键词库中所对应的UNIX属性文件目录进行遍历,使用一个特定文件保存关键词库中的所有查询关键词,通过读取特定文件中的内容来实现词的自动提取。为了给获取Deep Web数据提供查询关键字,需要频繁的检索文件和访问文件,这样内外存之间的信息交换量太大会影响文件检索效率。针对这个问题,本文通过对库中所有目录文件进行遍历,建立一个特定文件,保存关键词库中的所有查询关键词。信息检索程序获取查询关键词时只需对这个特定文件进行访问,这样既提高了检索的效率又增加了关键词库的安全性。5、通过本体学习,实现关键词库的更新。提交关键词查询Deep Web中存储的数据后,得到包含Deep Web数据的结果文档。根据本体和上下文知识对文档进行本体学习,经过词法分析、语义识别、本体查询、本体更新和词库更新五个阶段,实现关键词库的更新,并采用词库与文本同步更新的方法避免词库频繁更新而影响查询效率。