新闻文本中人物关系抽取的研究

来源 :武汉邮电科学研究院 | 被引量 : 2次 | 上传用户:xfengwujiutian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,新闻信息的传播方式逐渐转为线上传播。新闻文本是一种非结构化文本,包含丰富的人物关系信息,如何从这种非结构化文本中抽取出人物关系是自然语言处理领域的一个研究热点。目前关系抽取的方法主要分为流水线方法与联合学习方法,前者先识别出句中的人物实体对然后再对人物实体对的关系进行分类,后者则同时抽取实体并分类实体对的关系。本文采用流水线的方法来设计新闻文本中人物关系抽取模型,模型主要分为人名识别模型和关系抽取模型。在人名识别部分中,本文将注意力机制引入BiLSTM-CRF实体识别模型构建BiLSTM-Att-CRF人名识别模型来解决传统模型对句子关键特征捕获能力的不足。在关系抽取部分中,本文采用远程监督方法构建数据集的方式来解决中文领域高质量语料缺乏的问题。但在远程监督构建数据集的过程中,不可避免的会同时引入假阳性噪声。为了克服这个问题,本文引入生成对抗网络来对数据集进行句子级别的降噪,对数据集中的假阳性噪声直接滤除,用去噪后的数据集训练BiLSTM-PCNN关系抽取模型。然而理论上对抗网络不可能滤除所有的噪声,所以在此基础上本文将包含同一实体对的句子构成一个包,并引入TF-IDF关系指示词发现算法对包中包含关系指示词的句子赋予更大的权重从而抑制剩余的噪声。本文先在MSRA新闻语料上进行人名识别的实验,来对比BiLSTM-Att-CRF模型与BiLSTM-CRF模型的性能,实验表明BiLSTM-Att-CRF模型优于BiLSTMCRF模型且在召回率方面提高了1.18%。然后本文在用远程监督方法构建的数据集上进行关系抽取实验,用人工验证的方式来验证对抗网络的去噪效果,实验结果表明去噪后的模型的平均准确率比未去噪的模型提升了5.1%。最后本文对关系指示词加权进行实验验证,实验结果表明关系指示词加权对噪声的抑制是有效的。
其他文献
目的探讨胰高糖素样肽-1(GLP-1)类似物利拉鲁肽(Liraglutide)对2型糖尿病(T2DM)患者血浆丝氨酸蛋白酶抑制剂(Vaspin)水平的影响。方法采用酶联免疫法测定T2DM患者及正常人Vaspin水平,
这次在燕山大学召开全国高等工程教育研究会理事会是一次很重要的会议,中国工程院领导很重视,朱高峰副院长作了重要报告,很多院士都发表了精辟的见解,大家围绕高等工程教育改
目的观察丁基苯酞软胶囊治疗后循环缺血性眩晕的疗效。方法 92例后循环缺血性眩晕的患者随机分为治疗组(48例)及对照组(44例),对照组给予丹参20 ml加入0.9%生理盐水250 ml中静脉
8月7日,由长城物业主办的一应云联盟华西区域内训师大会在新疆乌鲁木齐市顺利召开,大会以“贞心传道·成就伟大”为主题,旨在搭建与联盟企业之间心与心的链接,从而为联盟
本文针对目前的现状,采用了近来比较热门和精确的交错网格有限差分法实现地震频带内弹性波的数值模拟.通过实例模拟了VSP记录,证实了这种方法的可行性和有效性.从我们的正演研究中,发现慢纵波的振幅与渗透率成正比,与孔隙度成反比;而慢纵波的速度则和孔隙度和流体的密度成正比.
21世纪以来,随着城市商业银行跨区域经营的快速发展,我国的城市商业银行规模迅速扩大,业务种类越来越复杂多样。但是由于部分城市商业银行在转变发展的过程中,始终处于重业务
处于经济波动较大以及高等教育普及的背景下,企业在进行人才选拔时偏向于资历较高的员工以增强高绩效概率,这导致越来越多的员工在择业时面临着能力超出工作要求的困境,即资质过剩感。同时,在飞速发展和激烈的竞争中,感知到资质过剩的员工不仅要充分发挥剩余技能为组织创造更多价值,还需要聚焦于自身事业的发展以达到自我实现的目标。基于此,本文探讨了资质过剩感对员工职业导向和工作单元导向两个方面的主动行为的影响。同时
当前正值中国企业大举走出去的“黄金时期”,投融资平台日益扩大,经贸合作欣欣向荣,在众多关键因素中,战略问题位居前列。战略是指企业为了获取竞争优势以及开发和保持自身核
随着课改的深入,笔者欣喜地看到,语文课堂教学焕发出前所未有的生机与活力。各种新思维、新理念不断涌现,各种新课例、新方法令人目不暇接。但静下心来不难发现:当前语文课堂教学
博览会,宾客纷至,门庭若市,超也了我们的预期。我们与来自全国各地的物业管理精英、行业利益相关方交流观,点分享果实、共畅未来。