论文部分内容阅读
从20世纪90年代开始,Wrapper被提出并逐渐引起了信息抽取、集成检索与数据交换等方面研究者的关注,较多的学者从不同的角度对Wrapper的概念、模型、实现方法等关键问题进行了深入的探讨。Wrapper研究是集成检索研究一个重要部分,当前侧重于对已知数据源模式的映射以及对查询的翻译和优化等方面进行研究。而对Wrapper生命周期中涉及到各个组件的自动化实现缺乏系统的阐述与实现,针对该项研究存在的问题,论文系统地阐述集成检索系统中Wrapper相关组件及组件之间的关系。首先,在模式抽取与映射中,改进了桥作用和语法相似度算法;第二,构建Wrapper抽取规则过程中,通过生成样式树发现目标对象集中区域,改进机器学习的算法实现抽取规则的自动生成;第三,为了提高Wrapper的健壮性,提出了基于模式的Wrapper可用性检测与自维护算法。
本文的研究工作主要包括五个方面:
(1)改进了基于桥作用与语法相似度的模式匹配算法,实现Web数据源模式的抽取与映射。抽取Web数据源检索界面属性,第一,采取启发式规则识别可供检索的表单以及不可供检索的表单,对可供检索表单进行模式的抽取;第二,采取统计匹配的算法建立基于领域的全局模式;第三,在本地模式抽取及全局模式构建的基础上,利用桥作用与语法相似度实现多个数据源中的相同或相似的属性关联,由关联的属性不断扩展全局模式的同义词,丰富全局模式。
(2)改进了构建Style树算法,结合有意义节点经验值的大小,发现目标对象集中区域。目标对象集中区域是Wrapper抽取内容所在区域。第一,区别于先前研究目标对象集中区域发现算法的多种假设,本文利用多个相似页面作为样本,将页面对应的DOM树压缩为一个样式树;第二,计算Style树中节点的重要性,依据重要性程度,剔除噪音节点,保留有意义的节点;第三,根据有意义节点的大小甄别目标对象集中区域。
(3)提出了一种基于节点相似度的分隔符发现算法,分隔符是目标对象集中区域中对象(记录)区分的标识。第一,计算目标对象集中区域中各层次节点标签的相似度,节点由其子孙节点组成的空间向量表示,各层次的节点分别同其所在层次的节点进行相似度运算,相似度运算采取空间向量模型,如果该节点和同层次其它具有相同类型标签节点的相似度最大,该节点的标签作为候选分隔符;第二,计算各层次节点的相似度,依次提取候选分隔符;最后,选择相似度最大的节点的标签作为分隔符。
(4)改进样例页面匹配生成抽取规则的算法。目标对象集中区域的内容以分隔符为基本单位划分为若干块;各块实现从上到下依次比较,通过匹配识别出页面中固定的字符,对于有规律变化的字段作为有意义内容被纳入到Wrapper的抽取规则中,由各块的比较确定必选字段以及可选字段,生成Wrapper抽取规则,该规则外在的表现为Schema形式,以XPATH作为识别目标对象集中区域在待抽取页面中的路径;最后,根据实际的规则,对相同或者相似展示样式的页面抽取具体内容。
(5)提出了基于自维护模式属性及实例相结合的算法,检测Web页面的变化,并根据页面的变化自动维护Wrapper的抽取规则。健全的Wrapper能够识别出目标页面的改变,并进行自维护。首先,以Schema的XPATH识别目标对象集中区域在页面中位置的变化;其次,按照Schema的规则判定待抽取记录的具体字段是否发生了变化。如果发生了变化,在小于给定阈值的前提下实现Wrapper的自我修复,大于给定阈值,则重新利用目标对象集中区域发现方法自动构建Wrapper抽取规则。