基于跨语言分布式表示的跨语言文本分类

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:czd1986624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究课题为跨语言文本分类,第一章首先介绍了该任务的来源、背景与意义,并总结了目前学术界对于该任务的研究现状,尤其是基于跨语言词向量表示的跨语言文本分类分类的研究进展。最后阐述了本文的研究路线与各章主要内容。第二章中本文首先介绍了单语词向量的训练方法,并由单语词向量的训练方法出发,从两方面阐述了本文所使用的基线系统:第一种为基于线性映射的跨语言词向量训练方法,包括从源语言向目标语言的单向映射方法和基于典型关联分析的双向映射方法,第二种为单语词向量的训练方法skip-gram模型的直接推广,我们以这两种方法作为我们的基线系统。第三章中,本文分析了第二章中所述基线系统的不足之处,从两方面对基线系统进行了改进:首先我们基于基线系统中词向量的训练和分类器的训练两阶段所导致特征和分类器不适配的问题,提出了一种联合训练的方法,对词向量与分类器联合训练。其次,针对基线系统中分类器模型较简单而拟合能力不够强的缺点,利用四种不同的分类器对分类进行了改进。我们在两个跨语言文本分类数据集上进行实验验证了我们的改进的有效性。第四章中,我们提出了一种全新的基于语义匹配的跨语言文本分类模型,将跨语言分布式表示的训练重新抽象为语义匹配问题,通过句意匹配任务训练一个句子编码器来同时得到句子和词的跨语言表示,训练分类器时直接采用句子编码器的一部分结构。我们在两个跨语言文本分类数据集上验证了我们模型的有效性。同时我们在单语文本分类任务上进行实验,证明了我们模型中的句子编码器作为分类器同样有较好的性能。本文的创新主要体现在:首先,将两个训练引入跨语言文本分类任务中。训练与任务相关的分布式表示,并取得了较好的结果。对多种分类器在跨语言文本分类上的任务进行了实证性研究。最后,将跨语言文本分类模型看做语义匹配问题,并设计了一种全新的句子编码器,能够充分利用长距离信息和局部信息对句子进行编码。最终在跨语言文本分类任务上取得了良好的性能。
其他文献
<正>腰椎间盘突出症又称腰椎间盘纤维环破裂髓核突出症,腰椎间盘位于腰椎间隙,为软骨板及纤维环维成,其中的髓核是一种灰白色弹性浆状体。椎间盘本身无血循环,自20岁起开始退
本文以新疆财经大学会计专业2010届—2012届毕业生为样本,在对毕业生及用人单位问卷调查和实地访谈的基础上,分析了财会类毕业生的就业状况、就业质量及其影响因素。研究表明
电子信息技术是2 0世纪科学研究的标志性成果,而电子信息技术产品所产生的电磁辐射(electromagneticsradiation )已成为危害人类健康的物理因素之一,是人们十分关心的问题。
目的观察大柴胡汤治疗胆囊炎、胆石症的临床疗效。方法运用经典方剂大柴胡汤随证加味治疗胆囊炎、胆石症36例。结果经治疗,36例患者病症均有改善。结论大柴胡汤加味治疗胆囊
目的评价通心络胶囊对急性冠状动脉综合征(ACS)介入治疗术后血小板活化状态及血管内皮功能的影响。方法90例ACS患者(ACS组)随机分为通心络胶囊治疗组(45例)和常规治疗组(45例
《巴黎圣母院》、《卡门》、《叶塞尼亚》和《吉普赛女郎》等影片中塑造了一个个个性鲜明令观众难以忘怀的吉普赛女郎形象,电影在塑造她们时从形、神、情三个维度构建了一个
电影《一个都不能少》是在农村教育题材的外表下,通过一个偶入城市的"外乡人"——魏敏芝"寻人"的遭遇揭示出现代都市中"人"的迷失这一深刻主题。影片也以魏敏芝为代表的一群
<正>国内流行病学调查表明,脑出血发病率占脑卒中的17.1%~55.4%,明显高于国外6.5%~19.6%。急性期脑出血病死率为30%~40%,预后极差。引起脑出血的危险因素很多,其中高血压、动
<正>脑卒中是全球人口死亡和致残的主要原因之一,脑出血作为脑卒中最严重的亚型,其致死率和致残率均居脑卒中首位[1-2]。据调查,脑出血占各型脑卒中的10%~15%,30d病死率高达2
<正>睡眠障碍是帕金森病常见的非运动症状之一,在帕金森病早期就会出现,严重降低了患者的生活质量。但睡眠障碍多被认为与年老有关,在临床工作中常被患者及临床医师忽略。有