基于深度神经网络的隐式篇章关系分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:InsideASPNET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐式篇章关系分析是自然语言处理中篇章分析的重要任务之一。其主要目的是对篇章中的两个句子、子句或分句,确定他们之间的篇章关系,通常被分类的这两个句子、子句等被称为论元。篇章关系主要反映了论元之间的语义连贯性,常见的关系有时序关系、扩展关系、比较关系等等。对于篇章关系的准确分类是十分有意义的,可以帮助机器更好地理解长篇文本,同时帮助一些下游任务如机器翻译、文本等。然而隐式篇章关系分析因为缺少连接词,而且也没有其他明显的表面特征可以直接用于分类,十分依赖于对文本的语义理解,只有明确了两个论元的语义才能确定关系,因此较难解决。在本文中,我们提出了一种深度增强表示的模型,可以通过多种层次、多种粒度的表示,将文本中的很多信息融入进来,生成能够反映论元对于篇章关系相关的语义表示。这个优化后的表示使得分类器可以更加容易地从中获取到篇章关系语义,使得分类结果得以提升。除了语义方面,数据的不足也是这个任务的一个严重问题。隐式篇章关系很难抽取出符合要求的数据,同时标注也比较难,所以使得数据量不太充足。标准数据集PDTB 2.0中只有一万多个相关数据。我们希望更充分地利用这些现有数据,因此在本文中,我们又提出了一个记忆模块,用于记忆训练数据,帮助分类。记忆模块工作的方法是将关系分类所用的编码器将论元对编码得到一个语义向量,然后将这个向量用作查询的键,并且将其对应的篇章关系也储存起来,这样在测试的时候,就可以根据测试样本的语义编码向量查找最相似的训练实例,然后获取他们真实的篇章关系,然后用这些关系来帮助测试样本的分类。本文通过在标准数据集上的实验证明了这些方法的有效性,这些方法可以使得关系分类的效果得以提高,取得了当前最好的结果。
其他文献
随着互联网与移动网络的普及,人们逐渐习惯关注网络热点事件并在网上表达个人情感。热点事件带来了海量的舆情文本数据,如何基于这些数据分析用户的情感导向是一个研究热点和难点。同时,情感分析是舆情系统中的关键步骤,有助于系统用户了解事件全貌、分析事件走势。舆情系统是能够自动采集并分析网络舆情数据的工具。系统使用大规模分布式爬虫进行全网多源舆情数据的自动化采集,然后使用处理模块对原始文本数据进行处理分析,为
传统的研究试图分析作用于家族企业并影响其企业价值的内外部因素,同时也会将家族企业与非家族民营企业在各个方面进行对比,但这些研究并没有涉及到两类民营企业的企业价值稳定性。本文的落脚点在于家族企业的企业价值稳定性这一点,本文为家族企业的研究填补上这一区域的空白。本文采用事件研究法中常用的累积异常收益率作为衡量企业价值稳定性的标准,并依此进行研究。研究主要得出三方面的结论:第一,平均而言,中美贸易摩擦确
骨组织工程材料主要包括两大类:人工合成材料和天然材料。商业化的人工骨材料主要是无机材料及其复合材料,其制备工艺复杂,力学性能偏脆。天然材料主要包括经过处理的天然骨和天然高分子材料。自体骨来源有限,且会造成二次手术痛苦。异体骨则会有免疫排斥反应的风险。天然高分子材料来源广泛,成本低廉,且生物相容性好,利于细胞粘附、增殖、分化等。同时可加工性良好、工艺简单。但是,这类材料力学强度偏低。玉米醇溶蛋白是一
在发展中国家和地区,三聚氰胺有时会掺假加入到乳制品中以虚假提高其表观蛋白含量,长期食用含有三聚氰胺的乳制品严重危害机体健康。然而,尚未开发便携式传感器用于现场测定乳制品中的三聚氰胺。本研究基于移动中和界面(NB)和EDTA光催化原理,构建了一种基于距离的传感器并对其应用进行了初步研究。本文的具体研究内容分为以下几个部分:1.微流控直读芯片及传感器的构建利用PDMS材料设计并制作多通道微流控直读芯片
如今经济不确定性问题已经成为国际上宏观经济学研究的前沿和热点,在国内,对经济不确定性的研究也受到学者们越来越多的关注。当前国际形势愈发复杂且多变且我国又处在深化改革的关键时期,研究不确定性对我国更有着重要且深远的意义。本论文首先综合利用主成分分析法等方法从大量经济金融数据中提取不确定性成分并合成中国宏观经济不确定性指标,然后用估计出的经济不确定性指标和挑选出的六个经济金融变量构造VAR模型,用符号
离网式微型光伏逆变器是分布式光伏发电的核心部件,也是目前广泛研究的热点。作为太阳能利用的一种重要形式,完整的离网式逆变器系统通常包含了储能元件,在日照充足的时候将太阳能转换的多余的电能储存起来,在日照不足的时候给负载供电。逆变技术是系统的核心技术,本文提出一种基于FPGA(Field Programmable Gate Array)的含锂电池储能的数字化控制离网式微型逆变器系统设计方案,并据此设计
少样本学习技术指的是在标注样本受限的情境下,快速学习并泛化到新任务的技术。该技术是为人工智能技术通向真正智能化的积极探索,并已在标注数据稀缺,标注场景受限等应用中赋能。近年来,少样本学习技术迅猛发展,但是如何更好的学习任务相关的知识,以及如何缓解训练与测试阶段数据分布的不一致带来的过拟合问题,仍然是少样本学习的最大挑战。为此,本研究立足于两大样本受限的情境,在分类、分割与检测三项具体任务上,提出了
随着社会进步与科技发展,各种传感器作为代替人工收集外界信息的媒介发挥着越来越重要的作用。光纤传感器凭借其众多优势,在温度与应变传感等方面获得极大重视,近几十年来在学术界和产业界受到广泛关注。光纤体积小、重量轻、耐腐蚀,光纤传感器抗电磁干扰、信号传输距离远,而且能实现分布式测量,因此在建筑结构监测、地震监测、管道电缆、航空航天、安防等场景中得到广泛应用。在分布式光纤传感系统中布里渊光相关域分析法(B
目的:本研究意在通过机器学习的方法,对大学生的主观幸福感状况进行分析,发现影响大学生主观幸福感的主要因素。利用其中影响大学生主观幸福感较大的因素,对大学生未来的主观幸福感情况进行预测,并分析影响因素的变化,以期作为高校开展心理辅导的参考方向。方法:问卷的设计与制作涉及网络问卷编辑,其中包括10个与幸福感相关的问卷、个人信息等问题。问卷编辑完成后,笔者所在的幸福团队与山东省济宁医学院进行合作,采集大
交通研究者通常使用微观交通仿真模型来评估交通流量、道路线型设计和交通控制方案的变化对交通运行状况的影响。在进行仿真时,一个前提是模型要输入适当的标定后的参数值。然而,这通常在计算上是十分耗时的,因为它需要反复运行仿真模型来寻找最佳参数值集。本文提出了一种基于机器学习的微观交通模拟器参数标定方法,避免了仿真模型的重复运行,显著提高了标定方法的计算效率。该方法首先建立机器学习模型,使用待标定的参数作为