基于多层语义特征对齐的朝汉跨语言文本分类研究与应用

来源 :延边大学 | 被引量 : 0次 | 上传用户:jill0401
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界全球化进程日益加快,不同国家和民族之间的交流愈加频繁,但是语言的差异一直是阻碍全球化交流进一步发展和进步的重要因素。跨语言文本分类技术通过克服不同语种之间的差异,实现组织和管理不同语种的文本数据,使得用户可以更高效地定位和使用多语种语言的文本数据。在此背景下,本学位论文在朝汉跨语言文本分类领域开展研究,通过结合跨语言词向量和对抗训练,提高朝汉跨语言的词和句子在特征空间中的对齐效果,实现朝汉跨语言文本分类,并在此基础上设计和实现了基于分类的朝汉跨语言文本检索原型系统。本文的方法可以有效减少不同语种的特征差异,对解决低资源语言的跨语言文本分类问题具有重要的实际应用价值。首先,对朝汉词语特征进行对齐,采用自学习映射方法构建朝汉跨语言词向量。通过构建小规模的随机种子词典训练映射矩阵,并利用映射矩阵得到新的种子词典继续训练映射矩阵,最终通过映射矩阵得到同一特征空间中的两种语言的单词表示,使得具有同语义的不同语种单词词向量之间具有较高的相似度。其次,结合对抗训练机制解决跨语言特征差异问题。收集3万篇中朝科技文献摘要文本和4万篇中韩新闻数据集,通过卷积神经网络和自注意力机制的特征提取器实现文本特征提取。其中通过卷积神经网络提取文本的局部语义信息,使用自注意力机制提取文本的长距离语义信息,再通过构建判别器对所输入文本特征进行语种判断,使判别器难以判断文本特征来源的语种,以实现跨语言特征对齐,最终应用至跨语言朝汉文本分类任务中。最后,设计并实现了一个基于跨语言文本分类的朝汉跨语言文本检索原型系统。系统主要有3个功能模块:存储模块、分类模块和检索模块。本文基于pyqt5设计用户交互界面,存储模块中利用kdtree数据结构组织数据以保证高效检索;分类模块是本文提出的朝汉跨语言文本分类模型的应用实现;检索模块通过利用分类模型中特征提取部分构建文本特征表示,并通过计算余弦相似度检索朝鲜语和汉语的相关文本。本学位论文提出的方法在不依赖对齐语料和目标语言标注数据的情况下,在朝汉跨语言文本分类任务中取得了良好的效果。实验表明,本文提出的多层语义对齐的朝汉跨语言文本分类模型与其他跨语言模型相比,不仅拥有更好的性能,还可以提高单语文本分类任务的准确率,对目标语言的小规模标注数据的利用方面也更有效率。测试结果表明,本文设计实现的检索原型系统具有良好的跨语言文本检索性能。
其他文献
问题式教学是用“问题”整合教学内容,以问题为纽带,引导学生运用地理思维方式进行情境问题探究解决的一种教学方式。本文以“交通运输方式和布局变化的影响”为例,围绕创设问题情境、设计问题链、迁移运用等内容,探寻更好地培养学生地理学科核心素养的路径。
期刊
朝鲜语古籍是记录朝鲜族数千年发展历程中有关历史、政治、文化等信息的重要载体。先进的古籍文字检测方法和技术可以促进朝鲜语古籍文本图像的再生性修复、文字识别等古籍数字化相关环节。目前国内有关汉语、藏语、蒙古语以及彝语等古籍文字检测和数字化工作成果显著,但是朝鲜语古籍的数字化进程严重滞后,有关朝鲜语古籍文字检测方法的研究文献非常少。朝鲜语古籍文字检测面临着各种挑战,一是混排的汉语和朝鲜语的字体形状、书写
学位
随着科技的快速发展,用电量的增加,具有高载流能力、低损耗、体积小的超导电缆就显得尤为重要,但交流损耗会导致超导电缆中产生热量进而增加制冷成本,导致超导电缆无法大规模使用。因此如何降低交流损耗,在超导电缆的研究中一直是一个重要问题。超导线材是制作电缆的关键材料,高温超导电缆的高温超导带一般是由超导线材围绕在支撑柱上组成的圆筒形结构。因此超导线材的结构也会影响到超导电缆的磁场分布,进而影响到交流损耗。
学位
随着社会经济的发展,人们的生活水平在不断地提升,与此同时,也产生了很多不良的生活习惯,导致心血管病发病率持续增高。通过心音听诊可以及时发现心血管疾病患者,提高心血管疾病的治愈率。而我国医疗资源相对短缺且分布不均衡,部分地区难以实现医生与患者一对一开展心音听诊的需求,并且准确的心音听诊需要医生有着较深的知识储备和听诊经验,听诊结果还会受到听诊器和医生主观判断的影响,因此使用计算机辅助医生进行心音听诊
学位
电感是电路中实现振荡、滤波、延迟、耦合等功能的重要电子元件,在电子电路中起着非常重要的作用,因此电感参数的测量技术一直被广泛的关注。现有的电感测量仪更注重对电感值和等效内阻的测量,而在实际电子产品设计中往往要考虑电感的耐压值、饱和电流,以及电感是否发生虚焊和及匝间短路等异常情况。鉴于现有电感测量仪存在的上述问题,提出了一种企业使用环境条件下的电感参数特性检测仪设计方案。首先提出了一种电感测量方法,
学位
目的:通过采用刚地弓形虫(简称弓形虫)RH株速殖子,体内感染雌性BALB/c小鼠和体外感染小鼠小胶质细胞系(BV2细胞),建立小鼠急性弓形虫感染和小胶质细胞活化模型及BV2细胞/Neuro-2a(N2a)神经瘤母细胞共培养体系,探究舍曲林对弓形虫感染激活小胶质细胞活化诱导神经元损伤的干预作用及其机制,为弓形虫中枢神经系统疾病的治疗提供科学依据。方法:1)体内实验:选用雌性BALB/c小鼠作为研究对
学位
时间序列是按照时间顺序产生和记录的一组序列数据,在任何时间、任何地点,人类活动和自然界中均在不断产生时间序列,这使得时间序列分析成为了数据挖掘领域中一项重要的研究内容。深度学习目前已成为时间序列分析中广泛使用的方法,并在多种任务上产生了较好的表现。但由于深度学习是一种数据驱动的方法,时间序列数据集中广泛存在的类别间不平衡现象和有标签数据的缺乏限制了深度学习模型的性能。本学位论文针对以上问题,采用自
学位
土地利用变化是影响生态系统功能和生态过程变化的主要驱动因子,其变化显著影响了区域水生态系统的供给和调节能力。然而,土地利用变化与多种水生态系统服务之间的关系及动态变化机制尚未被很好的揭示,这在一定程度上限制了区域水生态系统服务的协调和健康发展。乌苏里江流域地处中国和俄罗斯交界地区,是丹顶鹤等世界濒危迁徙鸟类的中间停歇地和东北虎、东北豹等世界濒危野生动物分布区,水生态系统功能的演变对东北亚地区的生态
学位
目的:本课题旨在应用离子对技术制备一种工艺简单,体内外透过性良好的高乌甲素(Lappaconitine,LA)长效压敏胶分散型贴剂。方法:本课题通过有机溶媒挥散法制备高乌甲素压敏胶分散型贴剂。首先应用卧式单室扩散池,雄性Wistar大鼠离体的腹部皮肤作为体外透皮实验的屏障,以单因素考察法通过体外皮肤渗透实验筛选了压敏胶(PSA)和载药量,并采用了离子对技术来进一步改善高乌甲素经皮透过性。选择了六种
学位
命名实体识别是自然语言处理的重要研究课题之一,它不仅能够让人们快速获取文章中的关键信息,还能为众多下游任务提供基础性实体信息。中国朝鲜语信息处理的研究尚处于发展初期,而命名实体识别这一基础性任务的研究能为后续更为深入的自然语言处理任务奠定基础,因此朝鲜语命名实体识别研究对朝鲜语信息处理具有重要的学术意义和研究价值。针对朝鲜语独有的语言特征,本学位论文采用朝鲜语多粒度融合表征和朝鲜语预训练语言模型结
学位