基于反馈学习的半结构化信息抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：xzm191213

【摘要】

：

随着互联网的快速发展,海量的信息以可读性良好的网页形式展示在人们面前。很多的网页以结构相似的形式展示记录列表,比如电商的商品信息列表。为处理这类网页并将网页中的记

【作者】

：

孙玉玺

【出处】

：

哈尔滨工业大学

【发表日期】

：

2017年期

【关键词】

：

网页视觉特征网页数据抽取反馈学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的快速发展,海量的信息以可读性良好的网页形式展示在人们面前。很多的网页以结构相似的形式展示记录列表,比如电商的商品信息列表。为处理这类网页并将网页中的记录以规整的形式格式化到数据库中,出现了很多信息抽取算法。算法主要是从分析网页源码结构或者利用网页提供的视觉信息来进行信息抽取。目前,大多数算法都将网页源码结构和视觉信息分开进行考虑,同时,算法本身自学习能力较差。因此,本文主要研究基于视觉信息和网页层次结构的信息抽取算法,同时利用反馈学习机制扩展算法,提高算法的抽取效果和学习能力。针对视觉信息和网页层次结构相结合的问题,本文提出了通过借助网页渲染过程中生成的渲染树来达到将两者结合的目的。该算法通过视觉属性对数据区域进行识别,利用网页层次结构计算记录之间的相似性并对记录进行聚类以进行记录提取,紧接着利用加权的树匹配算法进行记录项对齐。最后,实验结果表明将视觉信息和网页层次结构相结合,可以一定程度上提高算法的抽取效果。针对提高算法的自学习以及应对复杂网页结构的能力,本文提出将反馈学习框架和信息抽取算法相结合。通过借助用户反馈的信息来提高算法的抽取效果。算法利用用户标注信息来进行多模型学习,提高算法的抽取效果。实验结果表明基于反馈学习的信息抽取算法比现有算法有更强的应对复杂网页结构的能力和更好的抽取效果。为了帮助算法在工业生产中实际落地以及降低用户的使用门槛,本文设计并实现了一个界面化的信息抽取系统。本文详细介绍了算法执行流程中各个模块的功能设计和实现,并介绍了该系统对已有信息采集项目的帮助和改善。

其他文献

DKK1蛋白对SBC-3细胞增殖、迁移和侵袭能力的促进作用及其机制

目的:探讨Dickkopf1(DKK1)蛋白对人小细胞肺癌(SCLC)SBC-3细胞生物学行为的影响,并阐明其机制。方法:过表达DKK1的慢病毒和对照病毒分别感染人SCLC细胞株SBC-3,获得稳定表达D

期刊

癌小细胞肺Dickkopf1基质金属蛋白9克隆形成率cancersmall cell lungdickkopf1matrix metalloprote

新常态下的中小企业如何转型升级——基于创新发展视角的分析

中国经济已经进入"新常态",经济增速、经济结构因素等都已经发生了显著的变化。为了适应经济新常态,在新常态下持续健康发展,中小企业必须对自己进行转型升级。创新发展对中

期刊

新常态中小企业转型创新发展

大黄临床应用举隅

笔者在临床中较广泛应用大黄配伍治疗多种疾病，取得了较好的疗效，故举病例如下。1 中风（急性面神经炎）黄某，女，56岁，2004年7月18日初诊。

期刊