论文部分内容阅读
随着互联网的快速发展,海量的信息以可读性良好的网页形式展示在人们面前。很多的网页以结构相似的形式展示记录列表,比如电商的商品信息列表。为处理这类网页并将网页中的记录以规整的形式格式化到数据库中,出现了很多信息抽取算法。算法主要是从分析网页源码结构或者利用网页提供的视觉信息来进行信息抽取。目前,大多数算法都将网页源码结构和视觉信息分开进行考虑,同时,算法本身自学习能力较差。因此,本文主要研究基于视觉信息和网页层次结构的信息抽取算法,同时利用反馈学习机制扩展算法,提高算法的抽取效果和学习能力。针对视觉信息和网页层次结构相结合的问题,本文提出了通过借助网页渲染过程中生成的渲染树来达到将两者结合的目的。该算法通过视觉属性对数据区域进行识别,利用网页层次结构计算记录之间的相似性并对记录进行聚类以进行记录提取,紧接着利用加权的树匹配算法进行记录项对齐。最后,实验结果表明将视觉信息和网页层次结构相结合,可以一定程度上提高算法的抽取效果。针对提高算法的自学习以及应对复杂网页结构的能力,本文提出将反馈学习框架和信息抽取算法相结合。通过借助用户反馈的信息来提高算法的抽取效果。算法利用用户标注信息来进行多模型学习,提高算法的抽取效果。实验结果表明基于反馈学习的信息抽取算法比现有算法有更强的应对复杂网页结构的能力和更好的抽取效果。为了帮助算法在工业生产中实际落地以及降低用户的使用门槛,本文设计并实现了一个界面化的信息抽取系统。本文详细介绍了算法执行流程中各个模块的功能设计和实现,并介绍了该系统对已有信息采集项目的帮助和改善。