中朝跨语言文本相似度计算方法的应用研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:ploveye999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言文本相似性度量在多语种自然语言处理领域中具有重要的意义。随着信息技术和人工智能的发展,信息资源规模的扩大伴随着资源语言的多样化演变。中华民族包括56个民族,其中少数民族语言文字造就了中华文字的多样性,大量少数民族语言文字信息融入互联网的大环境,丰富了互联网资源的多样性。为了对少数民族语言文字资源进行有效的管理、挖掘和利用,打破跨语言的壁垒,跨语言文本相似性度量问题在多语种文本信息处理领域应用技术中成为基础性地位的课题。本文针对中朝平行语料,研究跨语言文本相似性度量方法。在跨语言词嵌入文本表示的基础上,利用不同语种词项间的共现相关性获得不同语种之间的联系,并将其应用于跨语言文本相似性度量的计算中。首先,收集了近3万篇中朝科技文献摘要文本,处理得到16万组句子级别对齐的中朝文本平行语料,并从句子对中抽取出词对齐信息构建了形式上句子对齐、内容上词对齐的用于训练双语词嵌入模型的平行语料。其次,利用上一步整理得到的平行语料进行双语词嵌入模型建模,得到了映射到同一个词嵌入空间中的两种语言的单词表示,并利用TF-IDF权重加权获得文本的向量表示,通过余弦相似度实现了基于向量的跨语言文本相似度计算。另一方面,利用平行语料中中朝词项共现性,提出度量双语特征词项在共现意义上的关联强度的方法,以此为基础设计了共现相关度计算模型,并结合基于向量表示的文本相似度构建了改进的跨语言文本相似度计算方法。最后,基于Django框架设计并实现了跨语言文本检索原型系统。系统总体分为文本检索模块,后台管理模块和数据库模块三个部分。经测试,系统各模块的功能均达到预期效果。跨语言检索测试表明,本文提出的基于文本向量表示和词项共现相关性的跨语言文本相似度计算方法将基于文本向量表示方法的效果提升了9%,在跨语言文本特征表示和文本相似度度量方面取得了良好效果。本学位论文开发的跨语言文本检索原型系统,其所有功能均通过测试,能够实现中朝跨语言文本检索任务。
其他文献
量子关联和量子相干是量子理论中的两个基本概念。量子关联表征了两体或多体系统的量子特征,而对于整体系统则定义了量子相干。而且,从实际的角度来看,量子关联和量子相干对于量子信息和计算任务也是宝贵的物理资源。一个成功而安全的量子网络依赖于分布在子系统之间的量子关联,这就解决了量子关联的分布问题。量子纠缠的单配性关系表征了这种相关分布。作为量子关联和经典关联的一个基本区别,与一个子系统纠缠的量子系统限制了
目的:通过体外实验,研究坏死性凋亡抑制剂(Necrostatin-1,Nec-1)能否在人近端肾小管上皮(Human kidney proximal tubular epithelial,HK-2)细胞受到高糖诱导的损伤情况下,对其产生保护作用及机制。方法:在体外对HK-2细胞株进行培养,将细胞随机分为5组:对照组(Control,CON):5.5mmol/L葡萄糖、甘露醇组(Mannitol,M
近五十多年来,非线性科学已逐步成为一门跨学科的综合性科学.非线性科学在各个领域里面都有所涉猎,对现代科学理论体系的形成具有明显的推动作用,其中,在各个领域和学科的研究中非线性微分方程始终占有一席之地.无论是在科学理论里亦或现实应用中,非线性偏微分方程都有其应用于实际的重要意义,它通常被用来研究力学、工程技术科学、生命科学以及流行病学等领域方面的问题.而在非线性偏微分方程里,非线性薛定谔方程是一种非
研究背景:胰腺癌是致死率极高的消化道恶性肿瘤,因其早期症状不明显、起病快等原因,致使患者5年生存率不足10%。目前,临床主要采用手术切除、辅助化疗和放疗等治疗策略,但效果欠佳。因此,迫切需要深入探索胰腺癌演进的分子机制,以期为胰腺癌的诊断和治疗提供新策略。多项研究证实,脂质代谢异常是恶性肿瘤的十大标志之一。脂质代谢因子-羟基类固醇脱氢酶样2(HSDL2),隶属于类固醇脱氢酶家族成员,可与还原型辅酶
目的 探讨多层螺旋CT对不典型肝脓肿(Atypical Hepatic Abscess,AHA)的诊断价值,并提高与肝内胆管细胞癌(Intrahepatic Cholangiocarcinoma,ICC)鉴别诊断水平,尽量做到早诊断早治疗,改善愈后。方法 本研究纳入2018年1月至2020年10月期间经超声穿刺、细菌培养证实的肝脓肿患者23例及病理证实肝内胆管细胞癌患者25例,分为不典型肝脓肿组和
随着互联网的高速发展,信息数据呈指数倍增长,如何有效利用这些信息成为人们关注的热点,随之自动问答系统步入人们的眼帘。自动问答系统依据内容所涉及的领域分为开放域及限定域两类。基于开放域的自动问答系统得到各行各业的广泛关注,取得一定的研究进展,但不可直接将其运用到限定域中,原因是限定域的知识专业性强,基于开放域的自动问答系统无法对其进行正确的判断与识别。因此,对于限定域自动问答系统的研究也是不可或缺的
文本特征提取是自然语言处理的重要研究课题之一,有效的特征表示不仅能节约人力资源,还能极大地提升后续任务的性能。朝鲜语语料库的人工标注工作过于费时费力,并且朝鲜语信息化和智能化处理的相关研究比较匮乏,因此朝鲜语文本特征学习任务具有重要的学术意义和应用价值。本学位论文采用深度强化学习与自注意力机制结合的策略,针对朝鲜语语料的独有特点,从表征学习的角度,提出两种朝鲜语句子特征学习模型并构建特征表示,用来
量子信息学是物理科学与信息科学交叉融合产生的新兴学科领域,是以量子力学的基本原理为基础,为信息科学提供新的原理和方法的一门学科。在量子信息领域,一个量子系统的物理状态用量子态来形容。量子信息的处理以及读取过程都离不开量子态,一般来说,根据组成量子态的粒子数可以将量子态划分单体系统量子态和多体系统量子态。根据态的叠加原理,多体量子系统会产生一种奇特的现象,即量子纠缠。量子纠缠作为量子力学区别于经典力
基孔肯雅病毒(Chikungunyavirus)是一种以伊蚊为传播媒介的蚊媒病毒,1952年,初次在坦桑尼亚患者的血清中发现并分离。CHIKV主要引起人基孔肯雅热(Chikungunyafever,CHIKF),是一种急性热性疾病,感染患者主要表现为关节炎、关节痛、发热、肌肉痛及皮疹等。我国于1987年在云南西双版纳初次发现CHIKV感染病例,并分离出该病毒。随着全球贸易及旅游的往来,我国输入性C
学位