文档表示与双语词嵌入算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:kxy66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档表示和双语词嵌入是自然语言处理中两个重要的文本表示学习技术,它们为其它自然语言处理任务提供了良好的特征表示。这两个方向是本文的主要研究内容。文档表示将文档表示成一个固定长度的向量,现有的工作简单地认为文档是一个文本序列,没有考虑文档中的层级关系,另一方面也忽视了文档不同部分有不同重要性。本文提出一个基于层级注意力机制的文档表示模型(HADR),同时考虑了文档中句子的差异性和句子中词的差异性两方面因素。实验结果表明,在考虑了词重要性和句子重要性差异之后,得到文档表示具有更好的性能。并且HADR模型在文档的情感分类上效果高于Doc2vec和word2vec模型。由于表示学习在单语上的成功应用,一些方法因为跨语言自然语言处理任务的需求开始研究跨语言的本文表示,构建双语词嵌入模型。双语词嵌入既可以在共享的向量空间中表示不同的语言,又可以进行跨语言知识转移。为了学习这样的表示,大多数现有工作需要具有词对齐的平行句子,并假定对齐的词具有相似的词袋(BoW)上下文。但是,由于不同语言的语法结构存在差异,不同语言对齐词的上下文可能出现在句子的不同位置。为了解决不同语言中不同语法的问题,我们提出了一种双语词嵌入模型(DepBiWE),通过生成依赖分析树得到语法依赖关系,该分析树可以找到对齐词上下文的准确相对位置。此外,本文还提出了一种新的方法,用于从基于依赖的上下文和词袋上下文中同时学习双语词嵌入。在真实数据集的实验结果验证了本文提出的DepBiWE模型对各种自然语言处理任务的有效提升。
其他文献
总体来说,我国成本管理理论的发展与实践,是与我国经济发展的阶段相伴随的。在改革开放之后,企业界继续完善经济责任制度,学术界努力学习和介绍西方成本管理的相关理论和方法
上市公司财务报告舞弊行为已成为我国经济发展,尤其是我国证券市场发展的一大隐患。本文从委托代理的独特视角,审视了上市公司财务报告舞弊问题,并提出了防范措施。
高血压是多基因遗传和多种环境因素相互作用的结果,盐的摄入在高血压的形成中起着关键的作用。本文通过查阅近几年文献资料论述感觉神经损伤、Dah1种、醋酸脱氧皮质酮和部分
<正>专利号:200710016496.1草甘膦是一种灭生性内吸传导型除草剂,是目前销量最大和增长速度最快的一种除草剂。一般通过甘氨酸法或IDA法制取。该方法具有原料成本低、原粉收
通过废水净化处理试验和废水回用选矿对比试验 ,对南京栖霞山锌阳矿业有限公司选矿废水的处理与回用进行了研究 ,最终提出了优先直接回用 ,其余适度净化处理再回用的方案 ,实
针对焦化废水中氨氮对后续生物处理严重冲击的问题,利用实际废水作为研究对象,在试验规模的反应器中研究了废水温度、气液比、吹脱时间和pH值等参数对氨氮吹脱去除率的影响。
目的:评估氯氮平合用舒血宁治疗长期住院精神分裂症的疗效和不良反应。方法:将长期住院(>2年)、服用氯氮平治疗的精神分裂症70例随机分为两组,对照组35例延用氯氮平治疗,研究
通过利用煮茶叶水与泡茶叶水对胶水组成进行改进,然后测量利用改进胶水制成的胶合板甲醛释放量、胶合强度及水煮开胶时间。通过对胶合板甲醛释放量的测量发现,用80g/L煮茶叶
基础教育财政转移支付制度,是以中央(联邦)和省级政府(州政府)为主体,以市县级政府(地方学区)为对象,财政资金按一定条件用于基础教育的转移支付的制度。美国是基础教育最发
目的观察黄葵对实验性肾病综合征的疗效,并探讨可能机制.方法实验大鼠复制成阿霉素(ADR)肾病(NS)模型,分为正常组、模型组、模型+强的松组、模型+黄葵组.于造模前、造模后2、