论文部分内容阅读
松散的结构化数据的提取和整合方法在很多方面都得到了应用,例如基于论坛的模式识别,博客数据分析,书评分析和新闻评论分析。但是目前的方法都只是针对刚性的结构化数据,还没有一种方法是为了松散的结构化数据而设计的,也没有一种方法可以很容易地就扩展到处理松散的结构化数据,这样极大地限制了这些基于松散的结构化数据的应用。本文就是关于自动的松散的结构化数据的提取和整合问题的研究。
在第二章,我们对结构化数据的提取方法进行了综述,很多的方法都是基于树边界距离和基于视觉上的内容特征的。在第三章,我们提出了一种全自动的松散的结构化数据的提取方法。在使用内容特征和Dom树特征来识别松散的结构化数据的前提下,我们的方法是通过找寻一个严格的约束来实现的。
第四章主要是综述结构化数据的整合方法和对一些特定属性的提取的方法。然后,在第五章,主要是描述我们提出的一个全自动的松散的结构化数据的的整合方法。这个方法的目标是为了找寻每一个松散的结构化数据记录都会存在的四个属性:标题,回复时间,用户属性和回复内容。我们的方法的基本思路是:先找寻这四个属性的初步区域,再总体上优化这些区域,从而得到较为准确的属性的区域。根据松散的结构化数据的特点,我们确定了这四个属性的提取顺序,分别是回复内容,回复时间,标题和回复内容。
使用我们的方法,我们实现了一个原型系统,其中的Dom树的建立是通过一个叫HTML Tidy的开源工具实现的。为了测试我们的算法的性能,我们通过一定的规则从Internet网上随机取一些实际数据组成了三个数据集。实验结果表明,我们的方法在实际的情况下是很强壮和有效的。
我们的方法易于实现,训练的时候非常有效和强壮,在找寻和整合松散的结构化数据时的准确率都很高。