Deep Web数据抽取及语义标注研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:sidiss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的快速发展,互联网在人们的日常生活中发挥着越来越重要的作用。信息检索作为互联网应用的重要组成部分,是用户获取信息的主要方法。目前,信息检索一般通过搜索引擎完成。由于技术原因,传统的搜索引擎只能发现静态网页内容,而无法获取Web数据库中的信息。如何能够充分利用Web数据库中丰富的资源,成为一个值得研究的问题。存储在Web数据库中、不能通过超链接访问的资源集合被称为Deep Web。为自动获取Deep Web背后众多Web数据库中的资源,需要建立Deep Web数据集成系统,该系统的查询结果处理模块分为数据抽取和语义标注两部分。数据抽取是指通过技术手段将Web页面上的数据抽取出来,保存为XML文档或关系模式,作为下一步处理的基础。语义标注是指对抽取出的数据增加语义注释,便于计算机识别与处理,从而具有更高的利用价值。本文使用Xpath技术完成Deep Web数据抽取并提出一种基于中文词性和领域知识的语义标注方法。基于Xpath的数据抽取方法首先将Deep Web查询结果页面规范化为XML格式,然后在遍历XML文档的过程中确定待抽取数据路径表达式,最后根据该表达式完成数据抽取并保存为XML格式。语义标注给抽取出的数据增加语义信息。本文所述语义标注方法借助中文分词工具得到抽取结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注。实验表明,本文所述方法能够对Deep Web查询结果准确抽取并对抽取结果进行语义标注,从而验证了方法的有效性。
其他文献
随着工作流的不断发展,出现了多种工作流语言和服务编排语言,而每一种服务编排引擎只执行一种语言,缺乏可移植性。因此,在实现科学研究的流程化和自动化的同时,如何高效地利用分布
在我们实际的嵌入式的开发之中,真实的嵌入式硬件开发环境跟嵌入式的仿真开发的环境还是很有差别的情况的,我们在开发的最后不能够完全依靠仿真开发平台,实际的情况还是要在最后
本文主要对无线传感器网络的路由协议进行研究,并针对无线传感器网络的能量受限特性,着重研究路由协议中的层次路由协议——LEACH及在其之上发展的诸多协议。本文提出的基于
随着计算机网络的不断发展,互联网已经成为了人类社会主流的一个重要组成部分。人们希望互联网能够不断地提供应用所需的各种网络服务。特别是,以视频会议、视频点播、远程教
推荐系统作为一个高效的信息过滤工具,已广泛应用于电子商务和社交网络等诸多领域。然而,当前一些称为“水军”的恶意用户为获取不正当利益,往往通过伪造用户行为影响推荐结
Skyline查询作为数据挖掘的重要分支,广泛应用于多标准决策、可视化和用户参考查询等领域。近年来,在数据库和信息检索研究领域,有效计算Skyline的问题已经引起国内外研究者
随着信息技术和互联网的发展与普及,越来越多的人能够在网络上随时随地的发表自己的想法,分享自己的所见所闻;在线社交网络(比如Twitter、Facebook、新浪微博等)在信息的传播
XML因其具有自描述性,可扩展性以及开放性等优点已经成为网络上信息表达和数据交换的事实标准。随着XML数据的不断增长,尤其是大规模XML数据的出现(如XML数据库),对XML数据的
随着Internet技术的快速发展,Web数据库越来越受到人们的重视,Web按其所蕴含信息的“深度”可以分为Surface Web和Deep Web两部分。与Surface Web相比,Deep Web蕴藏了更加丰
计算机系统的飞速发展给软件提出了更高的要求,如何提高软件质量这一课题的研究越来越得到人们的重视,而软件的可靠性、正确性、安全性等性质是保证软件具有高质量的关键因素