基于反馈学习的半结构化信息抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xzm191213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,海量的信息以可读性良好的网页形式展示在人们面前。很多的网页以结构相似的形式展示记录列表,比如电商的商品信息列表。为处理这类网页并将网页中的记录以规整的形式格式化到数据库中,出现了很多信息抽取算法。算法主要是从分析网页源码结构或者利用网页提供的视觉信息来进行信息抽取。目前,大多数算法都将网页源码结构和视觉信息分开进行考虑,同时,算法本身自学习能力较差。因此,本文主要研究基于视觉信息和网页层次结构的信息抽取算法,同时利用反馈学习机制扩展算法,提高算法的抽取效果和学习能力。针对视觉信息和网页层次结构相结合的问题,本文提出了通过借助网页渲染过程中生成的渲染树来达到将两者结合的目的。该算法通过视觉属性对数据区域进行识别,利用网页层次结构计算记录之间的相似性并对记录进行聚类以进行记录提取,紧接着利用加权的树匹配算法进行记录项对齐。最后,实验结果表明将视觉信息和网页层次结构相结合,可以一定程度上提高算法的抽取效果。针对提高算法的自学习以及应对复杂网页结构的能力,本文提出将反馈学习框架和信息抽取算法相结合。通过借助用户反馈的信息来提高算法的抽取效果。算法利用用户标注信息来进行多模型学习,提高算法的抽取效果。实验结果表明基于反馈学习的信息抽取算法比现有算法有更强的应对复杂网页结构的能力和更好的抽取效果。为了帮助算法在工业生产中实际落地以及降低用户的使用门槛,本文设计并实现了一个界面化的信息抽取系统。本文详细介绍了算法执行流程中各个模块的功能设计和实现,并介绍了该系统对已有信息采集项目的帮助和改善。
其他文献
目的:探讨Dickkopf1(DKK1)蛋白对人小细胞肺癌(SCLC)SBC-3细胞生物学行为的影响,并阐明其机制。方法:过表达DKK1的慢病毒和对照病毒分别感染人SCLC细胞株SBC-3,获得稳定表达D
中国经济已经进入"新常态",经济增速、经济结构因素等都已经发生了显著的变化。为了适应经济新常态,在新常态下持续健康发展,中小企业必须对自己进行转型升级。创新发展对中
笔者在临床中较广泛应用大黄配伍治疗多种疾病,取得了较好的疗效,故举病例如下。1 中风(急性面神经炎)黄某,女,56岁,2004年7月18日初诊。
目的:以动物实验证明临床疗效显著的自拟益气活血祛风汤对慢性肾小球肾炎(CGN)蛋白尿的疗效,并探索其作用机理。方法:用阿霉素致蛋白尿大鼠模型,以不同剂量益气活血祛风汤进行治疗
"营改增"属于我国一项根据经济现状进行对税收改革的一项措施。我国的经济发展越来越壮大起来,因此针对各行各业的税收也相应增加了。但营业税方面一直存在着一些问题,特别是
<正> 黑龙江省大庆市为提升环境监测能力,投资200万元配置了“环境应急监测系统”。该系统可对上百种气体和COD、总磷等20多个水质参数以及
目的:探讨疏血通注射液治疗急性脑梗塞的疗效及其作用机制。方法:60例经头颅CT检查证实的急性脑梗塞患者随机分为两组,均在发病48h内应用药物治疗。治疗组静脉滴注疏血通注射液;
为了促进产业结构升级,财政部和国家税务总局联合出台了关于完善企业所得税前固定资产加速折旧的税收优惠政策。本文分析税收政策对企业应对挑战、缓解资金压力和增加投资等
上海通用电焊机股份有限公司与上海交通大学台怍.针对船用型材品种规格多、精度低、易变形的特点,研制成功专门用于造船工业的型钢机器人切割系统。