机器翻译方法在跨语言文档分类中的应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wwp8133
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言分档分类任务是一个给定源语言有标注训练集,在目标语言的测试集上进行测试的文档分类任务。对于特定语言上的分类任务,有监督方法需要的人工标注语料成本较高。尤其在低资源语言上,往往很难获取需要的标注语料。跨语言文档分类任务尝试通过利用源语言(常常是高资源语言)上丰富的有标注语料得到目标语言(常常是低资源语言)上的文档分类器。该任务作为跨语言任务,对研究如何进行跨语言的迁移学习有着重要的理论价值。此外,由于现实世界中大多数语言属于低资源语言,该任务也有着较高的生产实践价值。机器翻译方法是将不同语言空间中的数据和知识映射到同一空间中的最直觉的方法。但前人的研究表明,基于机器翻译的方法在跨语言文档分类任务上的表现较差,和基于双语词向量的方法有着较大的差距。本文针对前人提出的基于机器翻译的跨语言文档分类方法进行了细致地研究,提出并用实验验证了词频特征的稀疏问题是导致该方法性能较差的瓶颈。更多的实验表明,通过特征聚类降低特征的稀疏程度,可以有效地提升该基于机器翻译的跨语言文档分类方法的性能。因此本文提出使用细粒度的单语词向量进一步解决基于机器翻译的方法中的特征稀疏问题形成一个可以应用在有平行语料和无平行语料等各种语料条件下的跨语言文档分类框架。实验表明,本文提出的框架在多种场景下的跨语言文档分类任务上可以达到或超过state-of-the-art模型的性能。在源语言和目标语言上有可用平行语料的情况下,本文的方法在英德方向上超过了之前最好的结果;在德英方向上可以达到之前最好的结果。在源语言和目标语言上没有可用平行语料时,本文提出的框架在利用无监督机器翻译系统时和直接使用无监督双语言词向量相比,同样获得显著性能提升。更多的分析表明,本文提出的框架对于所使用的翻译系统性能,词向量模型等均较为鲁棒,在结合有监督,无监督或在线机器翻译系统和不同的单语词向量模型时均可取得优秀性能。此外,在该任务中,本文提出的框架由于机器翻译模型的加入,和单纯使用双语词向量相比对某些单词在当前上下文中的语义更加敏感。
其他文献
《一个新型的进出口机构》介绍了中国教育图书进出口公司。该公司是为适应我国教育体制改革的需要而成立的教育系统书刊进出口的主要渠道,是国家教委直属的外贸企业。
在常项、变项、模板和实例等概念的基础上,提出了一种用模板匹配替换策略实现机器翻译系统的新方法,并通过若干翻译实例说明了该方法在用于实现英汉翻译系统的工作过程和潜在优
客户关系管理是当今天国内外研究的热点之一,是20世纪80年代起源于美国跨国公司的一种全新管理模式,由于其适应了买方市场条件并对公司赢利做出重大贡献,很快就传播到世界其
布朗运动是生物学家布朗首先发现的物理现明,物理学家,诺贝尔获得者爱因斯坦和佩兰普深入地从理论和实验研究布朗运动,出乎意料是的数学家,金融学家也研究布朗运动,1997年度诺贝尔经济
面对大的自然灾害,单凭政府的力量很难形成快速、高效、协调的应急机制,地震灾害的治理是一项科学性、技术性和社会性很强的系统工程,因此应在政府为主导的前提下,最大限度地
长三角规划的主要内容根据区域规划,长三角地区的总体功能定位是:我国综合实力最强的区域、亚太地区重要的国际门户、全球重要的先进制造业基地、具有较强国际竞争力的世界级
介绍春油菜田主要虫害的发生与防治,包括油菜跳甲、油菜茎象甲、油菜露尾甲、油菜角野螟、油菜蚜虫等虫害,以供种植户参考。
四肢麻木在临床上多见,大多是由于神经受压迫或者神经营养不良引起,末梢神经炎、椎间盘突出、椎管狭窄、周围组织压迫如梨状肌炎等都可以导致四肢麻木及疼痛。通过手术、局部理
高速铁路细部设计和工艺质量标准配套定额遵循了2017版铁路"四电"工程预算定额编制方法和原则,体现了当前高速铁路通信、信号、信息、电力、电力牵引供电工程"四新技术"应用
本文结合留学生被字句使用中出现的偏误,探讨了汉语与法语被动表述中动词使用的差异。着重从汉法动词的词性、语义关系及语用制约等三个方面进行了分析、比较。