论文部分内容阅读
随着互联网技术的飞速发展,Deep Web网站上拥有着海量的数据,并且在快速地增长,使Web成为一个巨大的数据源,这些信息要通过查询接口在线访问其后端的Web数据库。尽管Deep Web中蕴藏了大量丰富的有价值信息,但是Deep Web数据具有动态变化性和异构性等特点,对这些信息进行有效利用是非常有挑战性的工作。Deep Web数据集成至今仍然是一个研究热点,Deep Web数据集成可以对Web数据进行有效整合,为电子商务、市场情报分析、舆情分析等应用提供支持。Deep Web数据抽取是Deep Web数据集成中的核心问题,对Deep Web页面中广泛存在的非结构化和半结构化的数据进行有效地抽取,是实现Deep Web数据集成的基础,为数据融合和数据分析等提供服务。由于Deep Web页面都是基于脚本生成的网页,许多的文档共享公共的Html树结构,通常使用包装器来有效地抽取Web数据。由于Deep Web数据的异构性和动态性,Deep Web网页结构经常发生变化,导致包装器出现中断,从而需要重新学习包装器。Deep Web数据抽取中自适应包装器问题研究中,还存在以下问题有待解决:(1)研究如何提高抽取包装器的健壮性,即当Web网页发生变化时,包装器在新网页中继续保持抽取数据的能力。(2)研究抽取规则是否具有通用性,即针对某一数据源构造的抽取规则能否做自适应调整以便应用于另一数据源,实现领域自适应的抽取。本文针对网站上大量的Deep Web网页,以Deep Web数据集成为目标,针对以上两个待解决的关键问题展开研究,探索了构建健壮的包装器用于Deep Web数据抽取的问题,主要工作与研究成果概括如下:(1)针对包装器健壮性问题,提出了一种基于最小代价脚本编辑模型的健壮的Deep Web数据抽取方法。通过监控网页随着时间变化的过程中,统计插入、删除、替换三种编辑操作对每个Html标签的变化频率,根据编辑操作变化的频率计算相应的编辑代价,并在此基础上建立抽取模型用于健壮的Deep Web数据抽取。根据网页的变化,调整抽取规则,使得构造的抽取规则能更好的适应网站的变化。实验结果表明,该方法构造的包装器具有较高的抽取准确率,有效解决了Deep Web数据抽取中自适应抽取的问题,提高了Deep Web数据抽取的健壮性和灵活性。(2)根据自底向上(Bottom-up)的逻辑归纳设计思想,提出了一种最小的候选包装器的生成方法。该方法使得构造的包装器的查准率(Precision)和查全率(Recall)都接近于1,提高了包装器的抽取准确率。实验结果表明,该方法构造的包装器具有较小的破损率,抽取准确率较高。(3)针对包装器通用性问题,提出了一种自举法(Bootstrapping)的方式学习包装器,实现领域自适应的抽取。对51job招聘站点上训练得到的抽取模型,用于同领域内其他招聘网站如智联招聘、应届生求职等网站,随机采样一些网页用此抽取模型进行学习,从采样页面中抽取特征后,将抽取模型用于新的网站来识别属性值;由此得到的抽取规则进一步代替之前有标签的样本页面,通过自举式学习抽取模型,使得构造的包装器具有较高的通用性。实验结果表明,本文提出的方法有效地提高了目标网站的抽取准确度,有效解决了从大规模的Deep Web数据中进行抽取的高效性问题。