论文部分内容阅读
随着互联网及其应用的快速发展,互联网上的数据量急剧增长,网页上的数据已经成为一个巨大的数据库,其中包含着大量潜在的有用信息,如何从中抽取出用户感兴趣的数据已经成为人们关注的焦点。web数据抽取的主要任务就是从这些半结构化的网页中抽取出用户感兴趣的数据,并将其转换成结构化形式,为后续应用提供数据基础。web数据抽取吸引了众多研究者,并开发出了各种各样的web数据抽取系统。这些系统采用的方法和技术种类繁多,其采用的主要方法有:自定义开发语言、自然语言处理、机器学习、模式挖掘和本体技术等。这些系统各有所长,但是往往只能针对某些特定类型的网页进行抽取,具有很大的局限性。比如,一些基于模式挖掘的方法只能从结构清晰的网页中抽取标签之间内容,不能从标签之间的文本中抽取数据。通常目标网页中包含有大量目标数据信息,因此在形式上存在连续出现的模式,并且该模式整体上的形式变化很小。根据这一特点,本文提出了一个基于PAT和马尔科夫逻辑网的数据抽取方法。其主要思想是,利用PAT算法发现频繁模式的能力得到潜在模式,并选出最优的抽取模式;利用这些模式将目标数据所在的数据块抽取出来,在此基础上运用马尔科夫逻辑网进行更加精细的抽取。本文所提出的方法的具体过程是,首先忽略网页中所有的文本修饰标签,只保留定义文档结构的块标签,并将整个网页转换成token串。每个token都有一个相同长度的二进制编码,按照这个对应关系将之前的token串转换成一个二进制字符串,得到该网页的半无限长字符串。此时利用PAT算法,构建出该网页的PAT树,从中发掘出频率较高的潜在模式,并按照一定的筛选规则,筛选出候选模式。在用户标注训练样例的同时,从候选模式中确定出用户感兴趣的数据信息所在区域的最优匹配模式——目标模式。运用目标模式,将网页中所有匹配的数据区域抽取出来,得到目标数据块。在数据块的基础上,运用马尔科夫逻辑网对数据进行抽取。即根据数据块中目标数据的结构特征,通过构建原子谓词及一阶逻辑公式,构建出马尔科夫逻辑网,并在大量的实例中进行权重学习和推理,最终得到各个公式的权重,通过查询谓词从数据块中抽取目标数据信息。本文方法克服了传统方法的缺点,不仅能够有效地处理结构清晰的网页,而且能够处理包含有大量文本信息的网页。并通过两种不同的数据集上的实验,证明了本文方法无论是哪种情况下,其效果均好于传统的数据抽取方法。