基于不平行语料库单语映射方法的跨语言文本分类研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:cqz17
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理中较为基础常见的任务,但由于词向量空间的单一性,使得分类系统不能在不同语言上通用。若分别对每种语言单独训练分类模型,则会导致大量的成本和时间问题;并且分类模型作为监督学习方法,需要大量的训练样本训练模型,而由于不同语言的资源分布不均,使得资源较少的语言无法构建单语言分类模型;另外,主流跨语言词嵌入模型需要依赖成本昂贵的平行语料库,在不同语种间拓展性差。因此,针对以上问题,本文对于分类系统,跨语言词嵌入等进行了深入的研究,提出引入注意力机制的单语言神经网络分类方法,与两种不基于平行语料库的跨语言文本分类方法,如下:(1)针对单语言分类,本文提出双向的GRU神经网络模型,并将注意力机制引入到分类模型中。通过与传统机器学习方法,以及注意力机制的对比实验,双向GRU模型以及注意力机制均对于分类模型有着不同程度的提升,由此,将该模型作为跨语言分类模型的基础。(2)针对不基于平行语料库的跨语言分类,本文提出仅使用单语言文本语料来构建双语词嵌入模型,而抛弃对平行语料库的依赖。在目前对抗学习的研究基础上,引入普鲁克分析方法和跨域相似度局部缩放的方法,来对对抗学习得到的结果进行微调矫正,从而使双语词向量空间中双语的向量表示尽可能重合;其次,本文将普鲁克分析方法和跨域相似度局部缩放的方法用于自学习训练过程中,来不断调整映射矩阵,最终达到收敛完成训练。并通过实验与主流基于平行语料库的联合优化方法BilBOWA、使用Google翻译样本进行对比。对比实验结果显示,正交约束和跨域相似度局部缩放的方法均提升了分类模型的效果,并且二者叠加的效果最优。基于自学习训练跨语言词向量的方法效果与使用平行语料库的联合优化方法BilBOWA方法不相上下。
其他文献
模糊聚类是对没有标签的数据集进行有效划分的重要手段之一。随着大数据时代的到来,数据量呈指数增长,然而大多数数据是没有标签的,如何将这些数据准确分类,并为用户提供更准
“三农”问题在我国的经济社会发展中占据着重要的地位。其中,农村公共品的有效供给与农民增收、农村脱贫和城乡差距缩小等问题有着密切的联系。改革开放以来,我国农村地区发
论文首先用常用的相关系数方法和主成分方法算出了论文的关联分值。在用相关系数算关联分值时,分析了关联分值的影响因素,这些影响因素包括关联变量,权函数,权函数的参数,和
冠状动脉粥样硬化性心脏病(简称:冠心病),是指因血管腔狭窄或阻塞而造成心肌缺血、缺氧或坏死的心脏病,严重危害着世界人民的生命健康。为了准确、快速地诊断出冠状动脉狭窄
当下,我们面临的大众文化、社会语境等变化为当代艺术领域提供了很多思考的契机。而新语境下的中国画艺术创作问题,不得不让我们产生新的思考。今天,融合之所以突然受到关注
随着社会经济信息化程度提高和国民信息安全意识增强,以生物特征识别为技术基础的身份认证和识别受到越来越多地关注。借助深度学习技术的发展,新兴的指静脉识别技术以其高安
我国现行《商标法》给予“在先权利”与“在先未注册商标”的保护标准是不同的。但是在司法实践中,对二者予以保护的认定标准又存在相同的部分。这就导致判断有些在先商业标
全面从严治党,深入开展党风廉政建设和反腐败斗争,是党的十八大以来中国共产党治国理政最伟大的成就之一。2018年12月,中共中央政治局会议郑重宣告:"党内政治生态展现新气象,
随着人工智能的飞速发展,机器人同时定位与建图(SLAM)作为智能机器人领域的一个重要研究方向也得到了越来越多的关注。机器人同时定位与建图是机器人应用的核心技术,涉及领域
我国卫星图像识别技术在自然灾害、地表覆盖区域监测、环境资源分布研究等领域应用日趋广泛。卫星云雪图像中的云、雪等区域高光谱特征相似、空间分布特征复杂多变。传统的研