汉越跨语言新闻事件类型检测与因果关系识别

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:jackydu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉越新闻很大程度上呈现跨汉越关联的特点,体现为相关事件的一系列跨汉越新闻报道。及时发现并掌握越南相关新闻事件,从汉越相关新闻文本中检测出事件类型并分析各新闻事件之间的因果关联关系,就能帮助人们了解局势的变化,支撑交流与合作。本文的研究旨在从大量跨汉越的新闻文本中检测出特定新闻的事件类型,并识别汉越新闻之间的因果关联关系。其面临的关键问题是,目前主流的多语言事件类型检测与因果关系分析方法并不适用于跨汉越语言的场景,缺少汉越跨语言新闻事件类型以及因果关系的语料,且汉越同属孤立语系但越南语又是多音节字,难以统一跨汉越语言的文本语义空间,同时跨汉越的事件类型检测及因果关系分析的研究工作还非常有限。因此本文针对汉越跨语言新闻事件类型检测与因果关系识别任务的特殊性,将任务分为如下流水式的子任务,针对不同难点研究解决方法:(1)构建汉越新闻事件类型与因果关系语料库。目前汉越双语新闻数据匮乏,事件检测和因果关系分析的许多先进模型严重依赖监督方法中的巨量有标签数据,由于没有足够的语料数据作为统计学习模型的训练支撑,模型性能往往不佳。所以需要根据中越两国的相关性、热点话题和新闻版块,从汉越新闻网网站爬取汉越新闻数据,参考ACE2005和Fin Causal标注规则并结合所获取的语料定制汉越双语新闻语料标注体系,构建用于模型训练和测试的汉越跨语言新闻语料库。(2)提出基于类型感知的汉越跨语言新闻事件类型检测方法。越南语的多音节构词使得触发词的标注和识别存在歧义,且越南语触发词标记语料较少。本文提出一种事件类型感知的汉越跨语言事件类型检测方法,采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,迁移汉语中事件类型信息到共享的特征提取器中,通过基于事件类型的注意力机制模糊触发词对于事件类型的影响,探索在没有清晰定义触发词的情况下检测类型。实验较基线得到了2.07%的提升。(3)提出事件类型转移的汉越跨语言新闻事件因果关系识别方法。汉越跨语言新闻事件因果关系分析的工作还非常有限,且难以统一跨汉越语言的文本语义空间和捕获新闻之间的因果关联特征。针对以上问题,通过跨语言预训练将汉越各自的语义特征映射到统一的语义空间中,采用树形长短期记忆网络提取汉越文本中的句法这种结构化特征,然后基于新闻句对之间的事件类型转变建立注意力机制对汉越跨语言新闻事件因果关系识别任务分析,以获得不同语言新闻事件之间可能存在的因果关联关系特征,最后通过分类器识别因果关系。实验验证准确率比次优提升2.08%,证明了有效性。(4)搭建汉越跨语言新闻事件类型检测及事件因果关系识别原型系统。该系统可以判断出当前汉越新闻文本中的新闻事件类型,判断在同一话题下汉越新闻事件句之间可能存在的因果关系,并以图形化的形式展示。
其他文献
风能和太阳能作为广泛使用和发展速度最快的新能源,并且因其无污染和可持续的优点,受到研究者高度的关注。目前风力发电和光伏发电是风能和太阳能主要的开发利用形式,然而由于风能和太阳能都具有波动性、间歇性和不可控性等特征,使得风力发电和光伏发电难以控制和调度,这便给电网的并网运行和优化调度带来一定程度的影响,也会危害到整个电力系统的安全经济运行。因此,对风力发电系统和光伏发电系统进行准确的功率预测是十分重
学位
风能作为一种天然绿色环保的新型可持续再生能源,取之有不尽、用之而不竭,近年以来得到了广泛利用。风力发电不仅成本低廉,而且对环境的污染相对较小,是一种值得提倡的发电形式。作为风机中的主流机型之一,双馈风机安装灵活、体积小、技术成熟,与其他类型的风机相比,成本较低。但双馈风机的结构、原理、控制方式都有别于传统异步电机,其与电网并联运行时,系统是否能够安全稳定运行是首要考虑的问题。双馈风机就大容量的电网
学位
2021年我国提出加快构建适应高比例可再生能源发展的新型电力系统,积极推动经济绿色低碳转型和可持续发展政策措施。在新型电力系统的建设中,配电网作为电网分配电能的重任,但相较与高压输电线路,配电网线路分支繁多且较短,网络结构复杂且庞大,外部环境干扰大且种类多,用户用电设备情况难以预测等特点,导致配网故障检测、识别困难,当前新能源加入,使得配电网故障检测、识别难度进一步增大。一般故障分为潜伏性故障和突
学位
电力储能技术作为一种提高可再生能源渗透率、推动电力系统低碳化转型、维持高比例可再生能源电力系统供需平衡、助力我国早日实现双碳目标的关键技术,日益受到电力系统中发电侧、电网侧及用户侧群体的关注。为了推动储能领域快速发展,国家能源局、发展改革委发文提出于2025年实现储能从商业化初期转向规模化发展的目标,此外,积极支持用户侧储能的多元化发展,鼓励用户探索建设共享储能,适当拉大峰谷价差,为用户侧储能开辟
学位
近年来,随着国民对生态环境重视程度与日俱增,工程环境评价已经成为了一个工程合格与否的关键性指标。鱼道保证了河流在空间上的连续性,对众多水生生物的迁徙、基因交流以及能量传递等起到了不可代替的作用,被公认为是补偿河流机制的重要手段。而很多地区受地形条件的限制不能够布置常规形式的技术型鱼道,为此本文对小长宽比下池室水流结构进行了研究。采用flow-3D流体计算软件中的RNG k-ε湍流数值模型,对共计3
学位
我国风能和光能资源丰富,清洁能源装机规模持续增长,加快风电和光伏发电的消纳与利用是当前实现绿色可持续发展的重要途径。风力发电和光伏发电在送电过程中,光伏功率的不稳定性、并网电压的波动性以及风、光电场经串补电容并网引发的次同步振荡等问题都很大程度上限制了清洁能源的高质量利用。针对上述问题,本文主要就光伏最大功率跟踪、并网逆变器控制以及风、光并网系统次同步振荡机理和抑制措施开展研究,主要工作内容如下:
学位
水文循环实质上是生物圈中心的“血液流”,是地球上最重要的物质循环之一。大气过程作为水文循环的重要环节,对区域降水具有重要的影响。澜沧江流域位于中国西南部,是我国西部的主要河流之一。澜沧江流域水资源丰富,研究流域水汽输送及其收支特征,对于掌握该地区气候形成机制及气候变化特征具有重要意义,为促进区域经济规划发展、解决水资源匮乏等问题、流域范围内水库、大坝等水利工程的设计和运行管理提供了参考依据,具有重
学位
基于现有的高压共轨国V柴油机,在进气歧管处加装一套甲醇喷射系统实现甲醇/柴油双燃料可控压缩着火燃烧(Reactivity Controlled Compression Ignition,RCCI)模式,同时采用实验室自主研发的Lab ECU集成控制系统实现对双燃料RCCI模式的柔性协调控制。RCCI模式充分利用柴油机高压缩比和高热效率的优势,另外可同时降低氮氧化合物(Nitrogen Oxides
学位
服役于我国近海沿岸、盐渍土地区以及含酸碱性工业废水环境下的混凝土结构,长期经受SO42-、Mg2+等离子的强烈腐蚀,在使用不久后极易出现开裂以及材料脱落等劣化问题,威胁着混凝土结构的安全运行。工程上通过在混凝土中添加外掺剂如纤维材料来改善混凝土的工作性能,玄武岩纤维混凝土作为一种新型建筑复合材料,凭借着优良的力学性能、耐久性能和抗冲击性能,被广泛应用于改善混凝土结构的性能。而玄武岩纤维混凝土结构在
学位
近年来,流行的自回归(Autoregressive)神经机器翻译模型在翻译性能上已经取得了巨大的成功,但这些模型一般解码速度比较慢。而非自回归(Non-Autoregressive)神经机器翻译模型能很好的解决解码速度慢的问题,通过并行解码一次性生成所有译文中的单词,这就可以极大地提升翻译速度。但由于非自回归神经机器翻译模型是独立翻译每个单词,因此在翻译过程中缺乏上下文信息的考虑,译文生成过程中的
学位