基于双语主题词嵌入模型的中朝跨语言文本分类方法的研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:jzg8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言文本分类是有效地组织多语言信息资源的关键技术。跨语言文本分类技术可以消除语言的差异给人们带来的信息检索和文本分类的困难,可以帮助人们更好地理解语言信息,并有利于知识的交流与共享,推动经济和社会的发展与进步。基于双语词嵌入模型的方法作为当前主流的跨语言文本分类方法,在对双语单词的向量表示中嵌入了上下文以及跨语言信息。但是对一词多义的单词用一个向量表达多种含义,会带来歧义性问题,进而会影响到跨语言文本分类的结果。针对上述问题,本学位论文提出了双语主题词嵌入模型,解决了一词多义引起的歧义性问题,并利用深度学习算法提高了文本分类精度。首先,收集了 36万句子级别对齐的中朝平行语料,并从句子对中抽取出词对齐信息,构建了在形式上是句子对齐,内容上是词对齐的用于训练双语词嵌入模型的平行语料。同时,收集了 4000余篇平行文本用于进行跨语言文本分类。其次,将对单词的表示有自适应多原型特性的主题模型与双语词嵌入模型进行结合,提出了双语主题词嵌入模型。利用本文提出的模型对上一步整理的语料进行建模,得到了映射到同一个词嵌入空间中的两种语言的单词表示,并且针对单词的不同语义得到了不同潜在主题概念的描述。最后,结合深度学习文本分类算法,将通过双语主题词嵌入模型得到的双语单词的词嵌入表示作为输入进行了跨语言文本分类,通过一种语言的文本对分类器进行训练,而用另一种语言的文本进行测试分类。通过本文提出的模型训练出的双语单词词嵌入表示,对包含多个词义的单词中的每个词义都有着具体的词嵌入表示。实验表明,本文提出的双语主题词嵌入模型结合深度学习文本分类算法在跨语言文本分类中准确度最高达到了 91.76%,优于其他经典的跨语言文本分类方法。
其他文献
自由基是不稳定分子,一旦自由基与身体内的原子结合就会发生链式反应,它们就会造成细胞中DNA损伤从而导致衰老和各种疾病的发生。抗氧化蛋白质是一种保护细胞免受自由基破坏的物质,准确识别抗氧化蛋白对于理解它们延缓衰老的作用和在相关疾病预防治疗方面非常重要。传统生物手段对蛋白质功能进行分析耗时费力,因此,发展识别抗氧化蛋白的计算方法是非常可取和急需的。本文所做的主要工作如下:1、为有效挖掘蛋白质序列中的特
奇异摄动法是一种在力学领域求解非线性微分方程的方法,它被广泛地应用于力学、控制工程、经济系统等多种学科,是应用数学研究方向中很重要的一种数学求解方法。目前所存在的
背景:胃癌作为目前常见的恶性肿瘤之一,全世界恶性肿瘤死亡率第三高的癌症,具有较复杂的发病、侵袭及转移机制。其癌变过程是长期的细胞生物学行为由正常演变为异常的过程,其
在自然科学、工程技术以及经济管理等领域中的很多数学模型,其表现形式通常为常微分方程的定解问题,如何有效地进行求解是非常关键的。由于理论方法的局限性,很多方程无法求
利用常微分方程建立数学模型来研究传染病系统的动力学行为,会加深人们对于患病机理的认识,优化预防和治疗的策略。因此越来越多的学者通过考虑健康的靶细胞、被病毒感染的细
目的:颅内外动脉狭窄是引起缺血性脑血管病的重要原因,因其很高的致死和致残率,常常给家庭及社会带来沉重的负担。而无症状颅内外动脉狭窄因其临床无症状或症状较轻,常不能引
研究目的:分析食管癌患者传统营养指标,包括身体质量指数(body mass index,BMI)、血清白蛋白(albumin,ALB)、血红蛋白(hemoglobin,HB)、总淋巴细胞计数(total lymphocyte cou
分数阶微分方程一个最重要的特点就是它的非局部性,能很好地描述一些不规律关系和现象,并且非常适用于对一些拥有记忆特性的材料或者过程进行建模,在生物工程、物理工程、金
乳腺癌是一种常见癌症,其预防和治疗具有重要意义,miRNA能抑制蛋白质编码进而影响乳腺癌的发展。通过miRNA表达水平数据能够对乳腺癌进行早期诊断,筛选乳腺癌生物标志物。单
本文以一次华南冬季暴雨过程为例,利用WRF模式,研究了基于本征正交分解的四维集合变分(POD-4DEnVar)同化方法同化多普勒雷达资料的关键技术。论文工作分三部分,第一部分诊断