基于事件信息指导的越-汉跨语言新闻文本检索方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:huanghui0123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国与东南亚国家经济合作的加深,中国积极开展对外交流合作的新闻报道逐渐增多,由于信息量巨大,导致越南人民不能准确地检索出所需要的中文新闻文本。面向中文新闻文本的越-汉跨语言检索技术可以快速的通过越南语查询检索出所需要的中文新闻文本,这对越南人民准确了解中国对外合作交流动态有重要意义。现有跨语言检索是将查询语言和检索语言对齐后通过相似度匹配进行排序,而在相似度计算中,受检索文本中相似语义信息的影响,会使检索排序出现误差。本文聚焦文本事件信息增强的越-汉跨语言新闻文本检索方法的研究,通过深度挖掘和有效利用越南语查询语句的事件类型信息和中文检索文本的事件角色信息,提升越-汉跨语言新闻文本检索的性能。本文主要完成了以下研究工作:(1)新闻文本获取及语料库构建方法。由于缺乏标注事件信息的越-汉跨语言新闻文本检索数据集,为支撑模型训练,本文通过互联网爬虫技术从东南亚双语新闻网站获取相关新闻数据。首先,参考ACE2005数据集标注模式对越南语语句进行事件类型标注。然后,参考MUC数据标注模式对中文新闻文本进行事件角色标注。最后,在此事件信息标注基础上构建越南语查询语句和中文检索文档对相匹配的检索语料库,为后面越南语事件检测、中文新闻文本事件角色识别和越-汉跨语言新闻文本检索打下基础。(2)提出基于中文信息与越南语句法指导的越南语事件检测方法。越南语事件检测旨在识别越南语句的事件信息并将其分类。由于越南语标注数据稀缺,现有模型不适用于越南语事件检测。相对于越南语标注数据的稀缺,中文语句的标注数据是非常容易获得。基于此,本文提出一种利用中文事件类型标签实现越南语无触发词的事件检测方法。该方法首先利用共享编码器机制和交叉注意力网络拉近中文语句和越南语之间的语义距离,在此基础上通过图卷积网络融入越南语句法信息,以此提升模型对越南语语义特征的深层次理解,最后利用事件检测模块感知中文标注的事件类型标签是否能够触发越南语中隐藏的触发词信息,以此实现越南语的事件检测。实验结果表明,本文提出方法相比较其他基线方法取得了更好的效果。(3)提出知识图信息引导的中文新闻文本事件角色识别方法。中文文本事件角色识别旨在识别文本中的事件角色(要素)信息。现有事件角色识别模型在长序列特征提取方面存在不足,通常会造成上下文特征信息的丢失,从而影响模型对文本语义信息的理解。针对此问题,本文提出一种基于知识图信息指导的事件角色识别方法。该方法从文本原文中的语句中抽取三元组信息,通过聚类的方式构建跨句子元组元素的依赖关系,以此形成表征文本核心思想的知识图信息。然后利用Transform编码器和图卷积网络对知识图进行建模,使模型能够准确的捕获跨句子之间的信息交互及文档的语义表示,加深了模型对文本全局信息的深层次理解,最终指导模型识别出准确的事件角色信息。实验结果表明,本文提出方法相比较其他基线方法取得了更好的效果。(4)提出基于事件信息指导的越-汉跨语言新闻文本检索方法。越-汉跨语言新闻文本检索旨在通过越南语查询语句检索中文新闻文本。现有跨语言检索方法仅仅依赖特征相似度匹配方法进行检索排序,而在相似度计算中,受检索文本中相似语义信息的影响,会使检索排序出现误差。越南语查询语句是对事件的描述,隐含了事件的类型信息,而检索文档的事件信息都是围绕事件类型展开描述,这些新闻文本的事件信息可以作为跨语言新闻文本检索的有效辅助资源。因此,本文提出一种利用文本事件信息指导的越-汉跨语言新闻文本检索方法。该方法通过对查询语句事件类型信息和检索文档中事件角色信息的有效利用,增强了越南语查询与中文检索文本之间的联系。实验结果表明,与当前最优模型相比,该方法能更好的建模越南语查询与中文检索文档之间的联系,提升越-汉跨语言新闻文本检索的性能。(5)搭建新闻文本事件检测与越-汉跨语言检索原型系统。该系统从互联网网站收集中文新闻文本,通过本文提出的基于知识图信息引导的中文新闻文本事件角色识别模型实现文本的事件角色信息识别,并将文本数据和事件角色信息其存入数据库中。当用户输入越南语查询语句,利用本文设计的越南语事件检测模型对越南语查询语句进行事件类型识别。而后进行新闻文本检索时,利用越-汉跨语言新闻文本检索模型实现检索排序,并以界面化形式展示给用户。
其他文献
顶吹熔炼系统属于火法冶金设备中的一种,在铜冶炼行业被广泛运用。可靠、稳定、安全的顶吹熔炼系统对整个铜冶炼至关重要,关系着其生产的效率与产品的质量,因此顶吹熔炼系统全寿命周期测试、试验与状态检测等成为铜冶炼过程可靠运行的重要基础。但目前整个铜冶炼行业的数字化程度、智能化程度都相对来说比较低,随着《中国制造2025》和《有色金属行业智能冶炼厂建设指南(试行)》的出台,铜冶炼行业如何智能转型升级成为热点
学位
高压铸铝合金是实现结构轻量化最常用的轻质合金材料之一,其本构关系和断裂准则是结构安全性设计的关键。为了探索高压铸造铝合金ZTHJ01在准静态下的本构模型和断裂准则,设计了高压铸造铝合金标准拉伸、R5缺口拉伸、中心孔拉伸、平面剪切、蝴蝶剪切和三点弯曲六种实验样件,结合数字图像相关法(Digital Image Correction,DIC)开展了试验测试。根据对应力-应变曲线外推两种不同混合性硬化准
期刊
随着智慧电网的加速发展,大量光伏、风电等新型绿色能源已经并入电网,使得电网中的电流信号除了工频以外,还包括大量的直流、高次谐波、和高频暂态信号。而传统用于电网监测的电流传感器多为接触式电流互感器,具有频带较窄、容易产生谐振、无法对直流信号进行测量等问题,这就导致无法满足现目前的电网发展趋势。因此,对宽频电流的非接触传感技术研究迫在眉睫。本文设计了一种基于复合测量原理的宽频非接触电流传感器。该传感器
学位
三坐标测量机是一种通用的精密测量设备,现已在精密制造、航空航天等领域得到广泛应用,但传统的三坐标测量机体积大、价格贵且难以应用于工业现场。本文基于协作机器人体积小、工作空间大、灵活性高的特点,提出一种坐标测量机器人系统,构建了坐标测量机器人的软硬件系统;基于运动学标定提高机器人的精度,开发了基于视觉引导的自动测量功能。主要研究内容如下:(1)基于一种六自由度协作机器人本体构建了坐标测量机器人系统。
学位
伴随着节能减排要求的不断提高,轻量化设计已成为当前工程设计的一个重要趋势。电阻点焊操作简便、成本低、效率高、环境适用性好,通过电阻点焊连接高强度的钛与轻质材料镁不仅可以发挥两种材料优异性能,而且可以提升产品结构安全性和降低产品重量。点焊结构在循环载荷作用下,其失效最主要的方式为疲劳断裂,点焊结构的疲劳强度评估一直是行业中的难点与重点问题,因此有关异种材料电阻点焊接头疲劳特性研究显得尤为值得深入。本
学位
内燃机由于高度集成和高速运转特征,其摩擦损失约占系统总能量损耗的48%,特别是活塞-缸套之间的摩擦损耗占整个动力装备损耗的40%~55%。因此,提高摩擦副的润滑性能,实现摩擦磨损的主动干预,已成为内燃机可靠性研究的关键问题之一。诸多学者研究表明,在摩擦副接触表面使用表面微织构技术,可以极大提升摩擦副的润滑性能。因此,本文基于流体润滑理论,对凹坑型微织构减摩机理和影响润滑性能的各种因素进行研究,并搭
学位
神经机器翻译技术已经在生产生活中占有重要地位,尤其随着国家与国家的联系更加紧密,世界趋向整个经济体的今天,机器翻译有较强应用价值。然而神经机器翻译模型性能依赖于大量高质量平行语料随,因此某些低资源翻译语种对难以达到高资源语种对翻译效果。然而这些语种的翻译任务跟随经济发展的脚步发展的格外重要,例如着我国与东南亚国家的交流合作发展,语言壁垒成了急需克服的障碍,然而东南亚语言的翻译任务因为资源较少,可获
学位
机器翻译技术研究如何利用计算机将一种语言自动地转换为另一种语言,由于其有效性及便利性而得到持续的关注。近年来,随着深度学习技术的发展,神经机器翻译已经成为机器翻译技术的通用形式。尽管取得了一定的效果,神经机器翻译技术仍然存在表征不足,信息挖掘不充分等问题,特别是在数据缺乏的低资源情况下。本文针对神经机器翻译系统存在的以上问题,以文本粒度为划分依据,聚焦于词与词之间蕴含的句法信息和更大粒度的短语形式
学位
铁路运输作为交通运输行业的重要运输方式之一,为国家的经济发展做出了巨大贡献。随着高速有砟铁路列车行驶速度的不断提高以及载重量不断的增大,有砟道床不可避免的产生了一系列的病害问题,道砟的劣化是引起道床病害的因素之一。道砟形态特征的改变,使得道砟力学性能降低,从而引起道砟的劣化。然而,目前国内外关于道砟形态特征与道砟力学性能关联性的研究相对较少,并且也没有定量的研究两者之间的影响关系。因此对道砟的形状
学位
视频内容描述旨在用自然语言句子对视频的主要内容进行描述。该任务在提升视频检索质量,辅助人工审核视频,协助视障人士理解视频等方面有着广泛的应用前景。该任务的难点在于描述生成中,如何实现视觉和文本的跨模态语义对齐。因此,该任务有助于推动视觉和文本在语义对齐和协同表达方面的研究。现有工作主要基于时间注意力模型建立视觉和文本的语义对齐。虽然在一定程度上提升了视频描述的准确性,但仍然存在一些不足,包括1)对
学位