【摘 要】
:
语言评价是自然语言处理领域中备受关注的一个问题,机器翻译、文本摘要、文本复述、图像标注等领域的研究者都依赖于语言评价模型展开研究工作。语言评价模型能通过参考文本等资料,利用计算机自动化、低成本、快速地对文本生成模型的质量进行评估。研究者可以利用语言评价模型开展模型评价、模型选择工作,或是利用语言评价模型进行消融实验,对文本生成模型的细节进行深入分析。然而,目前常用的语言评价模型都存在着一定的问题,
论文部分内容阅读
语言评价是自然语言处理领域中备受关注的一个问题,机器翻译、文本摘要、文本复述、图像标注等领域的研究者都依赖于语言评价模型展开研究工作。语言评价模型能通过参考文本等资料,利用计算机自动化、低成本、快速地对文本生成模型的质量进行评估。研究者可以利用语言评价模型开展模型评价、模型选择工作,或是利用语言评价模型进行消融实验,对文本生成模型的细节进行深入分析。然而,目前常用的语言评价模型都存在着一定的问题,要么无法很好地从语义角度衡量参考文本与生成文本之间的相关性,评价准确率远远不及人类,要么将消耗较大的计算资源。现有语言评价模型所存在的问题给相关领域的研究工作带来了障碍。针对现有研究工作的不足,本文提出了一种新的语言评价方法Hy LEU,它能利用双曲空间强大的表征能力,使用双曲测地线距离更好地度量n-gram短语之间的语义相关性,进而更好地度量参考文本与生成文本之间的语义关系,更好地完成语言评价任务。本文具体所做的工作如下:(1)本文提出了双曲词嵌入对齐正则化,它能利用Word Net知识库所建立的高度结构化的语义树,对双曲词嵌入模型Poincare Glo Ve进行调整。实验证明,经过双曲词嵌入对齐正则化项优化后,双曲词向量具有高内聚和低耦合的特性,同义词对和不相关词对的词向量在双曲空间中的测地线距离有着显著的区分性。(2)通过分析双曲空间词嵌入模型的结构,本文发现余弦相似度并不能很好地度量双曲词向量的相似度。为此,本文提出了双曲空间中的词汇相似度计算方法:距离映射函数。距离映射函数可以将词向量在双曲空间中的测地线距离转换为词汇的相似性度量。在多个数据集上进行的词汇相似度评价实验证明了该方法的优越性能。(3)本文建立了基于双曲空间的自然语言评价模型Hy LEU。Hy LEU能结合了前两个工作,能更好地判断参考文本与机器生成的文本之间的语义相关性,进而更好地完成语言评价任务。在多个机器翻译评价任务上的实验证明,Hy LEU拥有较低的计算消耗和较高的评价质量,达到了预期设计要求。
其他文献
对于非奇异射影曲面曲面S,它的n点Hilbert概型S[n]上的很多不变量都可以由S上的相关不变量显式表达,如Betti数,Hodge数配边类椭圆亏格等等。本文中,我们将如上结果推广到一些与S[n]上tautological丛相关积分的生成函数。我们主要利用了中的策略:1.利用[3]的结果化到P2和P1×P1的情形2.对P2和P1×P1的情形做局部化.化到C2的等变版本(equivariant v
随着计算机技术、数字通信、多媒体技术和网络技术的发展,高维数据作为一种重要的信息载体,已在军事、科技、商业和教育等方面广泛应用。不可避免地,由于获取设备故障或获取条件不佳等原因,所获取的高维数据经常存在缺失,噪声污染等现象。高维数据的退化大大降低了其在各个领域的应用价值。修复退化的高维数据中主要包括高维数据的修复效果和修复时间。数字图像尤其是高维图像(多时间、多光谱、多模态等)是最具代表性的高维数
近年来,对物体三维重建的研究多数是在形状大小不会发生改变的刚性物体上,而非刚体作为现实世界的重要组成部分,早期对其三维重建的方式也是基于刚体重建。这些方式将物体尽量作为一个整体进行建模,易产生模型重建偏差,导致很难还原非刚体的局部特征与生理形态。基于此,本文以研究非刚体的鸟类为例,分析与研究已有数据集,重定义鸟类骨架与关键点信息,设计基于局部刚度能量优化的非刚体三维重建算法。对比已有算法并进行实验
计算机辅助检测与分割在临床实践中具有广泛应用。在这些应用中,大尺寸的目标可以获得较好的检测分割效果,但是像早期肿瘤检测,血管斑块分割等属于小目标范畴的检测与分割效果却不尽人意。医疗图像小目标检测与分割存在待检测目标面积小,小目标可提取特征少,易受噪声干扰等问题。目前专门针对这些问题的研究工作还比较少,因此探究如何改进主流的检测与分割算法使之可以有效进行医疗图像小目标检测与分割,是当前一项重要的研究
在大数据时代,传统的公钥加密机制虽然能实现隐私保护,却不能满足细粒度访问控制要求。而相比之下,属性基加密可以根据用户所拥有的属性来分配解密数据的权限,这相对于传统的公钥加密机制来说更加地灵活和高效。但是,随着属性基加密的发展,也涌现出了一些问题,其中较为突出的是密钥滥用问题。现存的密钥滥用问题有两种,一是权威机构分发密钥给未授权用户,二是授权用户泄露密钥给未授权用户。不管是上述哪一种情况都会给系统
2021年,党中央着眼保障学生身心健康成长,积极回应社会关切与期盼,印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》,以“小切口”推动大改革,全力构建高质量教育体系。“双减”背景下构建高质量教育体系,必须强化“四个统筹”,夯实“四个基础”。
熔石英(非晶SiO2)硬度高,热膨胀系数低,耐高温,化学稳定性好,透紫外光和红外光。在惯性约束聚变(ICF)领域的大型高功率激光装置中,熔石英被大量用作光栅、透镜和窗口等光学元件。高功率激光装置的运行通量往往直接取决于光学元件的最大激光承受能力。然而,在高通量激光作用下,熔石英的表面缺陷易导致熔石英光学元件的激光诱导损伤,从而严重影响了光学元件的负载能力及光学系统的高通量稳定运行。随着光学元件的加
作为IT行业的重要发展趋势之一,云计算技术充分利用信息资源并提供优质服务。云计算服务在给用户带来便利的同时,也为用户隐私带来了潜在的风险。在云计算领域中,计算和数据分享被认为是最重要的两个服务。因此在云计算安全领域中,计算安全和数据分享安全被认为是最热点的两个方向。在量子计算机时代,基于格的全同态加密和属性基加密技术分别在计算安全和数据分享安全问题上发挥着重要作用。在云计算服务场景中,有时需同时考
目前,遥感影像在军事、农业、林业等领域得到了广泛应用。薄云在遥感影像中产生的模糊感,降低了遥感影像的质量,给地物分类、目标检测带来了严峻挑战。传统的去薄云算法并不能有效满足实际生产工作的需要。本论文以Landsat-8卫星陆地成像仪(Operational Land Imager,OLI)为实验对象,以云雾去除领域常用的大气散射模型为理论基础,构建物理驱动的去薄雾卷积神经网络;并根据遥感影像中薄云
随着互联网和信息技术的迅速发展,人们已经步入大数据时代,如何自动有效地对这些大数据进行分析处理是一件非常有价值且亟待解决的事情。图像标注技术就是一个具有挑战性的跨领域数据处理问题,它旨在自动地用准确且流利的自然语言来描述出图像的具体内容:它不仅需要识别输入图像中的显著物体,而且还需要使用人类语言来表达准确的信息。图像标注技术弥合了计算机视觉和自然语言处理这两个领域之间的鸿沟,可用于许多实际应用中,