论文部分内容阅读
随着国际互联网的日益普及和迅猛发展,论坛已成为网络上一个重要的数据源。它为人们提供了大量的关于各种题材的非常有价值的知识和信息。因此,近些年来越来越多的研究工作利用从论坛中抽取出来的信息建立各种网络应用。为了有效利用论坛数据,大部分应用首先从论坛网页中抽取结构化的数据,再进一步利用这些数据实现各种功能。论坛的结构化数据抽取是对论坛中帖子的标题、作者、发表时间和内容文本块等论坛元数据的抽取,它是处理论坛数据的基础。然而由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。这一问题已经成为有效利用论坛数据的一个主要障碍。本文研究论坛结构化数据抽取技术中的一些关键问题,主要贡献有以下几点:1.提出了一种基于实例学习的包装器生成算法从论坛中抽取结构化的数据。该方法可以从单个标注实例开始,通过将待抽取的网页与已标注的网页进行比较来完成抽取工作。只有当一个新的待抽取实例中的数据不能够被正确抽取时,系统再对其进行标注,因此算法无需初始的训练集合。对不同论坛站点中结构化数据的抽取实验结果表明,该方法是非常有效的。2.提出了一种基于自动模式发现的论坛数据记录抽取算法。该方法首先使用网页的HTML代码建立网页的标签树,然后通过比较标签树中结点的标签字符串挖掘网页中的数据区,并从数据区中识别数据记录。在论坛站点列表页和帖子页上的实验结果表明,该方法在抽取论坛数据记录方面明显优于经典方法。3.提出了一种基于产生式规则的论坛元数据抽取算法。该方法通过对论坛站点和论坛网页结构的分析,利用一组产生式规则从识别的数据记录中抽取论坛帖子的元数据。算法不依赖特定的模板,因此可以适应论坛模板的周期性变化,自动抽取结构化数据。实验结果表明该方法对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。