基于卷积神经网络的弱监督关系抽取关键技术研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:liongliong474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的普及和大数据学科的发展,数据越来越多的以文本形式出现,如何让计算机理解文本内容,自动的对其进行处理,达到减少人工成本,提升效率的目的已成为当今自然语言处理中的重要课题。关系抽取是信息抽取工作当中非常重要的一个环节,这一环节的关键性任务就是实现自动识别各实体间的语义关系,并构成关系三元组。关系抽取有着广阔的应用前景,在大规模知识库构建,情感分析,自动问答系统等领域中起到了重要作用。在传统的关系抽取中,需要依赖于现有的自然语言处理工具,而自然语言存在灵活多变,同一种语义关系可以使用不同的语言表达,这就给传统关系抽取方法带来了难题。近年来,随着深度学习引入自然语言处理领域后,大量研究者开始使用有监督的方式处理关系抽取任务,在解决了传统方法难题的同时,也产生了其他如人工标注语料费时费力的难题,本文主要采取了弱监督的关系抽取手段,有效解决了有监督关系抽取中的问题,但由于需要从少量标注的语料中通过回标得到扩充数据,因此会产生回标噪声。同时弱监督的关系抽取方法还会产生NA噪声以及类别数据不平衡的问题。本文研究了基于卷积神经网络的弱监督关系抽取关键技术,具体工作如下:(1)首先,对实体关系抽取的应用背景和关系抽取发展历程进行了介绍,然后介绍了关系抽取中相关的理论技术基础,如卷积神经网络的相关理论和多示例学习相关理论,从机器学习的角度将关系抽取问题划分为基于无监督、有监督、弱监督的方式,比较分析了现阶段主流的关系抽取方法。(2)弱监督的关系抽取方法会产生回标噪声和NA噪声的问题,前者研究者们通常使用多示例学习的方法解决,而对于NA噪声问题,本文提出使用排序损失的方法不对其类别进行学习,从而解决NA噪声问题。(3)由于已有的标注语料中不同类别的三元组所包含的句子数量不同,从对回标数据统计分析发现,关系类别分布存在不平衡现象,对模型训练产生不利影响,我们在原有的排序损失函数中加入代价敏感,一定程度上解决数据不平衡的问题,从而提高关系抽取的准确率。
其他文献
近年来,人们可以从网络中获取的图像数据资源急剧增加,为了能够快速、有效地从大量的数据中检索出人们真正需求的图像,图像检索问题受到了重点关注。由于哈希算法具有搜索速
车轴是列车的关键支承部件,也是走行部的最基本的旋转部件之一。在轨道车辆运行过程中,轮对车轴承受荷载的同时面临着非常复杂的运行环境,容易引发故障。对车轴进行故障诊断并预测出车轴的剩余寿命不仅方便制定合理的维修策略,又能有效避免事故的发生,从而提高安全性并降低故障引起的损失。为实现对车轴故障的分类识别和寿命预测,本文提出了一种基于二维卷积神经网络的车轴故障诊断方法。卷积神经网络(CNN)是深度学习的一
自18世纪女性主义发源起,便掀起一股关于女性觉醒的浪潮,并对政治、文化、哲学、艺术等领域产生了巨大的影响。在解构主义的影响下,经过了漫长的发展,女性主义的核心理念也从权利的争取演变为“不能被界定和规划”与“反抗父权中心论”。女性主义的蓬勃发展无疑催生了艺术的新的发展方向。自二十世纪以来,越来越多的女性艺术家们带着自己鲜明的立场和新的艺术思考进入了艺术领域,这无疑是为长期由男性视角主导而僵死的艺术领
众所周知,语音学习对初中学生尤为重要并且语音学习对英语学习也具有重要意义。然而,受到中考的影响,中学教师往往对语音教学有所忽视。在教学过程中,笔者发现一些学生对单词的发音存在一些困难。因此,要想提高初中学生的英语口语水平,研究他们的发音是必不可少的一步。首先,笔者选取七年级学生作为研究对象,研究受试者目前英语发音的习得现状;其次,笔者采用问卷调查、教师访谈、语音测试为主要研究工具,总结受试者在学习
压缩感知作为一种全新的信号理论,突破了Nyquist采样定理对采样率的限制,基于信号具有稀疏性或可压缩性的特性,可实现信号低速率压缩采样及其准确重构。压缩感知通常包括信号
本论文依托于国家“深部探测与实验研究专项(SinoProbe)”计划下第一个项目“大陆电磁参数标准网实验研究(SinoProbe-01)”中的子课题“青藏高原及华北阵列式区域大地电磁场
认罪认罚从宽制度在2018年新修改的刑事诉讼法做出明确规定以来,在立法层面对认罪认罚从宽制度作出明确规定,完善了刑事案件认罪认罚从宽制度适用方面相关程序规定。检察机关兼具司法机关和国家法律监督机关职能,基层检察机关承担着大量轻微刑事案件,承办刑事案件占所有刑事案件比百分之七十以上,因此,基层检察机关在办理刑事案件适用认罪认罚从宽制度过程中证据审查、认罪认罚沟通与协商、权益保障以及程序选择等方面承担
视频目标跟踪是计算机视觉、人工智能等领域的研究热点,在视频检索、视频分析、模式识别等方面有重要的研究价值。根据操作域的不同,目标跟踪算法分为像素域算法和压缩域算法
骏枣在新疆种植面积占到60%以上,是新疆种植规模最大的林果树种。目前,枣资源的开发利用主要集中在果实上,果实采摘后的叶片则不予重视,造成资源的极大浪费。本课题组前期研
随着移动通信技术的升级与智能终端的普及,移动支付在我国进入了飞速发展时期。在参与发展移动支付业务的各主体中,第三方移动支付平台因自身业务特性等因素在市场中表现良好,但依然存在影响其发展的行业劣势与环境限制。在未来日趋激烈的市场竞争中,如何发掘行业潜力,巩固高粘度用户,制定适宜的发展策略成为其未来发展业务的重中之重。本文采用了文献研究法、模型法、归纳演绎法等研究方法,共由六个部分构成。第一部分介绍了