基于PAT和MLN的Web数据抽取研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:qjinglihong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网及其应用的快速发展,互联网上的数据量急剧增长,网页上的数据已经成为一个巨大的数据库,其中包含着大量潜在的有用信息,如何从中抽取出用户感兴趣的数据已经成为人们关注的焦点。web数据抽取的主要任务就是从这些半结构化的网页中抽取出用户感兴趣的数据,并将其转换成结构化形式,为后续应用提供数据基础。web数据抽取吸引了众多研究者,并开发出了各种各样的web数据抽取系统。这些系统采用的方法和技术种类繁多,其采用的主要方法有:自定义开发语言、自然语言处理、机器学习、模式挖掘和本体技术等。这些系统各有所长,但是往往只能针对某些特定类型的网页进行抽取,具有很大的局限性。比如,一些基于模式挖掘的方法只能从结构清晰的网页中抽取标签之间内容,不能从标签之间的文本中抽取数据。通常目标网页中包含有大量目标数据信息,因此在形式上存在连续出现的模式,并且该模式整体上的形式变化很小。根据这一特点,本文提出了一个基于PAT和马尔科夫逻辑网的数据抽取方法。其主要思想是,利用PAT算法发现频繁模式的能力得到潜在模式,并选出最优的抽取模式;利用这些模式将目标数据所在的数据块抽取出来,在此基础上运用马尔科夫逻辑网进行更加精细的抽取。本文所提出的方法的具体过程是,首先忽略网页中所有的文本修饰标签,只保留定义文档结构的块标签,并将整个网页转换成token串。每个token都有一个相同长度的二进制编码,按照这个对应关系将之前的token串转换成一个二进制字符串,得到该网页的半无限长字符串。此时利用PAT算法,构建出该网页的PAT树,从中发掘出频率较高的潜在模式,并按照一定的筛选规则,筛选出候选模式。在用户标注训练样例的同时,从候选模式中确定出用户感兴趣的数据信息所在区域的最优匹配模式——目标模式。运用目标模式,将网页中所有匹配的数据区域抽取出来,得到目标数据块。在数据块的基础上,运用马尔科夫逻辑网对数据进行抽取。即根据数据块中目标数据的结构特征,通过构建原子谓词及一阶逻辑公式,构建出马尔科夫逻辑网,并在大量的实例中进行权重学习和推理,最终得到各个公式的权重,通过查询谓词从数据块中抽取目标数据信息。本文方法克服了传统方法的缺点,不仅能够有效地处理结构清晰的网页,而且能够处理包含有大量文本信息的网页。并通过两种不同的数据集上的实验,证明了本文方法无论是哪种情况下,其效果均好于传统的数据抽取方法。
其他文献
双语语料库的构建在自然语言处理、机器翻译、数据挖掘、词典编纂、多语言信息检索等领域具有重要的应用价值。当今互联网上存在大量双语互译文本,通过对互译文本的处理,建立实
基于数字高程模型DEM的数字地形分析已成为地理信息系统GIS的重要组成部分,广泛应用于测绘、遥感、城市规划、军事作战等各个方面,其中的特征地形要素分析研究尤为活跃。  
随着Web信息技术的不断发展,网络信息采集技术也日趋完善,作为许多Web信息服务的基础及重要组成部分,它被广泛的应用于搜索引擎、机器翻译等自然语言处理的各个方面。面对互联网
随着计算机与网络技术、移动通信技术及移动嵌入式技术的发展,移动计算技术已逐渐将人们从具有时空局限性的、传统的桌面计算中解放出来,使得人们能够以更为自然、本能的方式
随着NAND闪存智能移动终端的广泛应用,NAND(?)闪存上的数据恢复技术也日益彰显其重要性。与传统的磁存储器相比,NAND闪存一方面在硬件上具有耐擦写次数低且不支持原地擦写的
随着科技的不断发展,领域文献和术语词典不断累积,将非结构化的领域文献转变为结构化的知识库日益成为知识工程的研究重点。然而,现阶段特定领域知识库构建往往缺乏相应的信
在过去的几十年,神经网络的动力学分析因其重要的理论和实际意义,受到了各领域学者和专家的广泛关注。神经网络有着广泛的应用背景,与计算机、数字网络、嵌入式系统、以及人工智
近年来,随着信息技术的快速发展并逐渐运用于军事领域,计算机信息化管理对征兵工作起到了极大的推动作用。现行的以单纯的计算机管理和传统的手工管理相结合的工作模式,已经很难
识读视频中的数字时钟是一个重要的应用问题,在智能监控、娱乐等领域有着重要的应用价值。文献中已有算法可以很好地识读视频中的数字时钟,但是这样的算法还存在两方面的问题
随着二维条码技术的不断发展以及智能手机性能的不断提高,手机二维码已经在在各个行业中得到了广泛的推广,给人们的生活带来了极大的便利。随着移动网络增值业务的不断发展,其应