结合主动学习的多记录网页属性抽取方法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:tingxin1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,
其他文献
<正> 在中纪委第八次会上,针对当前反腐败斗争形势,江泽民总书记严肃指出&#39;反腐败斗争的形势依然严峻,端正党风的任务依然繁重&#39;,并要求我们&#39;决不能悼以轻心,决不
铁路部门的改革加快了海铁联运的发展。本文从铁路运输经营人的角度研究铁路与公路运输竞争的情况下,铁路运输服务的定价和运营优化问题。首先利用顾客价值理论分析客户对铁
<正> 笔者采用和胃利胆的方法,自拟和胃利胆汤治疗胆汁反流性胃炎38例,取得满意效果,现报告如下。1 一般资料 本组均为门诊病人,其中男性27例,女性11例;年龄在16~69岁,平均42
<正>华中师范大学于2005年11月接受了教育部专家组进校考察与评估,并获得优秀结论。实践证明,教育部在全国开展普通高等学校本科教学工作水平评估,是非常及时、十分必要的。
天津邮政离退处主办的纪念长征胜利70周年,天津邮政离退休职工第八届书画摄影展展出了国画、书法、篆刻、泥塑、摄影、插花等作品共230件。天津邮政局是全国邮政系统11个仍保
【正】从1984年12月起,我县对社会商品零售额的统计方法进行了如下改革:一、直接统计.国营和供销合作社商业、饮食业仍按业务主管系统布置填表,并综合上报.对于承包给个人或
<正>2017年2月19日,中央电视台倾力打造的移动融媒体新闻平台——央视新闻移动网正式发布上线。此举正值习近平总书记在党的新闻舆论工作座谈会重要讲话发表一周年之际,是中
舞蹈组在少年宫领导的大力支持和关心下,在全体少年宫人的积极配合下,本着。讲服务、促发展、要效益”的九字方针,不断学习,努力创新,甘于奉献,取得了可喜的成绩。
加拿大律师工会的一项最新报告称,联邦政府的引进低技术外籍工人计划不能满足业界的需要,因为该项目仅允许外籍工人最多在加拿大停留一年,
模糊拒取式推理(FMT)是模糊推理中最基本的推理形式之一,FMT的一个前提———模糊否定在推理中较重要.文中基于区分矛盾否定、对立否定和中介否定的模糊命题逻辑形式系统(FLCOM),