融合区分度信息的神经网络关系分类方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:ltt3221340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系分类是自然语言处理领域的一个子任务,它是很多其他自然语言处理任务的重要一环,如信息抽取,问答系统,知识库构建等。过去的方法大多将关系分类任务看做一个单纯的多分类任务,没有考虑类别与类别之间相似的问题。对于同种语义关系不同实体方向的两类关系来说,由于语义关系相同,他们的表达往往是相似的,因此这两类关系很容易混淆。为了解决同种语义关系不同实体方向的关系类别容易混淆的问题,本文提出了一种融合区分度信息的神经网络用于关系分类,在模型中引入了区分度信息用来区分语义关系相同实体方向不同的关系类别。本文通过实体词向量相减的方法将空间上的实体方向转化为数学上的向量的方向,并把实体词向量相减的结果作为区分度信息。该模型分为三个模块:句子表示模块,关系区分模块和区分度融合模块。在句子表示模块本文用双向长短时记忆神经网络(Bi-LSTM)作为编码器编码句子的语义信息,将词嵌入与词的位置特征嵌入的级联作为Bi-LSTM的输入特征,没有使用任何额外的特征。在关系区分模块,将实体词向量相减的结果作为关系区分模块的输入,经过非线性变换后得到区分度特征。区分度融合模块将句子表示模块的输出与关系区分模块的输出相融合。本文采用了两种融合方式进行特征融合。一种是基于级联的特征融合方法,该方法将句子表示模块中第二个实体词对应的前向LSTM的隐层状态与第一个实体词对应的后向LSTM的隐层状态输出,然后与关系区分模块的区分度特征级联,将级联后的特征送入到分类器中进行分类。另一种是基于卷积神经网络的特征融合方法,将句子表示模块的每个词对应的输出与关系区分模块的输出并联作为卷积神经网络的输入特征,并在池化层用最大池化和以实体位置为界的分段池化两种池化方法进行实验。除此之外,本文使用交叉熵函数与变形的max-margin函数相加的新函数作为模型的损失函数,并用交叉熵函数与我们提出的新的损失函数分别进行实验。最终模型的实验结果表明本文提出的区分度特征在区分容易混淆的关系类别上效果明显,本文提出的新的损失函数能够在一定程度上提升模型的性能。最终,本文所提出的模型在不使用任何额外特征和NNLP分析工具的情况下得到了84.8%的F1值。本文的贡献如下:(1)发现了关系分类任务中同种语义关系不同实体方向的关系类别容易混淆的问题,提出了区分度这一概念并将它用于解决同种语义关系不同实体方向的关系类别容易混淆的问题。(2)将变形的max-margin函数与交叉熵相加作为新的损失函数,本文提出的新损失函数在一定程度上提升了模型性能。(3)比较了两种不同的融合方式对关系分类的影响并分析了原因。(4)在关系分类的标准数据集SemEval-2010 Task 8上进行实验,实验结果表明本文提出的区分度特征能够有效提升关系分类模型的性能,与Bi-LSTM基线模型相比,加入区分度特征后使模型的F1值提升了4.4%,在没有借助任何额外特征和NLP工具的情况下,本文所提的模型实现了 84.8%的F1值。
其他文献
目的:外周T细胞淋巴瘤(PTCL)是临床较罕见,异质性显著,发病机制复杂的侵袭性血液系统恶性肿瘤,具有不良的预后。2017年WHO已识别约30种PTCL亚型,而且PTCL肿瘤分化过程中可发
研究背景与目的子宫内膜癌是一种子宫内膜的上皮恶性肿瘤,处于围绝经期和绝经后女性易发。子宫内膜癌是三大女性生殖系统肿瘤之一,其致死率仅次于卵巢癌和宫颈癌而在常见妇科
《三十二个木头人的故事》是藏传佛教传入蒙古地区之时被译介到该地区的古代印度经典文学作品之一。笔者利用长达2年的时间收集并整理了国内各图书馆、档案馆有关《三十二个木头人的故事》的大量写本,以此研究传入蒙古地区的《三十二个木头人的故事》的版本及其来源问题、印度两位高僧译本的出入问题、故事叙述问题和各版本的内容属性问题等。本文以绪论、正文(四章)、结语三部分构成。绪论部分交代了选题依据、研究概况、选题目
本文以汉语言据性表达相关词语“听说、据说、按、照、按照、据、根据、依、依据、凭”及其相关结构为研究对象,结合其语法、语义及语用功能,通过整理标注留学生作文原始语料
随着时代改革进程步伐的推进,国家投入了大量的经济、物资、人才促进农村经济发展。家电下乡政策改善了人们的生活水平,但也使电力问题日渐突显。从近几年电力可靠性报告来看
目前我国先行赔付制度在立法上存在不足,比如法律位阶较低,只在部门规章中有涉及;缺乏可操作性细则;赔付程序方面存在不足;事后代位求偿制度不完善;破产债权与先行赔付债权的
谱调制、谱编码(Spectrally Modulated Spectrally Encoded,SMSE)是一种具有将参数映射为波形能力的多载波波形生成模型,该模型能够通过调整参数的方式产生不同的通信波形,从
澄衷学校创办于清末世纪之交,在波云诡谲的社会局势和夺流涌入的西方教育思潮下,它不断探索、励精图治,形成了自身的办学特色,并以优异的成绩享誉沪上。本文通过对澄衷学校发展历史的考察,展现大转局时期澄衷学校发展的基本脉络和核心问题,并总结其育才之道,以期对现代民办学校的改革有所裨益。全文采用总分结构,正文第一章纵向梳理澄衷学校三十七年间的发展概况。根据社会动变下澄衷学校的内在发展里路,将其划分为三个阶段
目的:评估首选丙戊酸(VPA)单药治疗儿童失神癫痫(CAE)1年的疗效,从而寻找CAE首药治疗疗效可能的影响因素。方法:在南京医科大学附属儿童医院视频脑电图数据库中以“失神发作
研究背景:重金属铅、镉已被国际癌症组织列为致癌物,可以通过诱导氧化应激,产生炎症,影响人体代谢,而参与肿瘤进展。已有实验证明铬、镉、砷可以在体外诱导支气管上皮细胞(Hu