集成检索系统中Wrapper自动生成方法研究

来源 :中国科学院文献情报中心 | 被引量 : 0次 | 上传用户:rechardfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从20世纪90年代开始,Wrapper被提出并逐渐引起了信息抽取、集成检索与数据交换等方面研究者的关注,较多的学者从不同的角度对Wrapper的概念、模型、实现方法等关键问题进行了深入的探讨。Wrapper研究是集成检索研究一个重要部分,当前侧重于对已知数据源模式的映射以及对查询的翻译和优化等方面进行研究。而对Wrapper生命周期中涉及到各个组件的自动化实现缺乏系统的阐述与实现,针对该项研究存在的问题,论文系统地阐述集成检索系统中Wrapper相关组件及组件之间的关系。首先,在模式抽取与映射中,改进了桥作用和语法相似度算法;第二,构建Wrapper抽取规则过程中,通过生成样式树发现目标对象集中区域,改进机器学习的算法实现抽取规则的自动生成;第三,为了提高Wrapper的健壮性,提出了基于模式的Wrapper可用性检测与自维护算法。   本文的研究工作主要包括五个方面:   (1)改进了基于桥作用与语法相似度的模式匹配算法,实现Web数据源模式的抽取与映射。抽取Web数据源检索界面属性,第一,采取启发式规则识别可供检索的表单以及不可供检索的表单,对可供检索表单进行模式的抽取;第二,采取统计匹配的算法建立基于领域的全局模式;第三,在本地模式抽取及全局模式构建的基础上,利用桥作用与语法相似度实现多个数据源中的相同或相似的属性关联,由关联的属性不断扩展全局模式的同义词,丰富全局模式。   (2)改进了构建Style树算法,结合有意义节点经验值的大小,发现目标对象集中区域。目标对象集中区域是Wrapper抽取内容所在区域。第一,区别于先前研究目标对象集中区域发现算法的多种假设,本文利用多个相似页面作为样本,将页面对应的DOM树压缩为一个样式树;第二,计算Style树中节点的重要性,依据重要性程度,剔除噪音节点,保留有意义的节点;第三,根据有意义节点的大小甄别目标对象集中区域。   (3)提出了一种基于节点相似度的分隔符发现算法,分隔符是目标对象集中区域中对象(记录)区分的标识。第一,计算目标对象集中区域中各层次节点标签的相似度,节点由其子孙节点组成的空间向量表示,各层次的节点分别同其所在层次的节点进行相似度运算,相似度运算采取空间向量模型,如果该节点和同层次其它具有相同类型标签节点的相似度最大,该节点的标签作为候选分隔符;第二,计算各层次节点的相似度,依次提取候选分隔符;最后,选择相似度最大的节点的标签作为分隔符。   (4)改进样例页面匹配生成抽取规则的算法。目标对象集中区域的内容以分隔符为基本单位划分为若干块;各块实现从上到下依次比较,通过匹配识别出页面中固定的字符,对于有规律变化的字段作为有意义内容被纳入到Wrapper的抽取规则中,由各块的比较确定必选字段以及可选字段,生成Wrapper抽取规则,该规则外在的表现为Schema形式,以XPATH作为识别目标对象集中区域在待抽取页面中的路径;最后,根据实际的规则,对相同或者相似展示样式的页面抽取具体内容。   (5)提出了基于自维护模式属性及实例相结合的算法,检测Web页面的变化,并根据页面的变化自动维护Wrapper的抽取规则。健全的Wrapper能够识别出目标页面的改变,并进行自维护。首先,以Schema的XPATH识别目标对象集中区域在页面中位置的变化;其次,按照Schema的规则判定待抽取记录的具体字段是否发生了变化。如果发生了变化,在小于给定阈值的前提下实现Wrapper的自我修复,大于给定阈值,则重新利用目标对象集中区域发现方法自动构建Wrapper抽取规则。  
其他文献
作为一种新的互联网现象,人肉搜索这个词频繁地进入大众的视野不过几年时间。但是,人肉搜索的作用、影响已经引起了广泛的争议。一方面,人肉搜索被称为“搜索引擎的未来”、“舆
学位
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
军事技术合作是一个国家对外政策的重要组成部分。在全球政治、经济和军事斗争纷繁复杂的形势下,作为一个国家在国际关系领域中的重要活动,军事技术合作往往能反映一个国家的
学位
期刊
随着时代的发展,人们对检索得到的信息质量要求越来越高,期望自身模糊的信息需求能更进一步的得到有效服务,千篇一律的检索将逐渐被淘汰,需要搜索引擎为每个用户提供“量身定做一
在经济全球化和信息化的时代,信息在社会经济生活中起到至关重要的作用,成为一项重要的国家发展战略资源。政府信息是一项重要的信息资源,覆盖了经济、政治、科技、军事、文化等
学位
手机短信息是近年来手机增值服务的一项重要应用。随着社会信息化程度和人们对信息时效性要求的不断提高,短信在不同的领域中被越来越广泛地应用,包括交通、银行、商业、邮政等
20世纪90年代中后期,随着一批电子图书集成商的成立,专业电子图书市场开始新兴起来。与此同时,国内外图书馆开始尝试采购电子图书资源。但目前的电子图书市场存在图书种类少、商
随着电子政务在各国的迅猛发展,政府网站作为其核心部分,它的建设已经成为各国关注的焦点。我国也非常重视政府网站的建设,但长期以来总习惯站在政府的角度评估政府网站。政府网
学位
摘 要:针对房地产开发成本控制相关内容,做了简单的论述,提出了成本控制方法。对于房地产开发企业来说,若能够实现成本的有效把控,对增强市场竞争力,有着积极的作用。现结合具体实践,整理关于开发成本控制的有效方法和手段,共享给行业人员。  关键词:房地产开发;成本控制;经济效益;市场竞争力  中图分类号:F293.33 文献标识码:A 文章编号:1004-7344(2018)23-0262-02  目前