基于半监督结构化学习的跨语言词性标注研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kisswc69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理技术在当今信息时代取得了巨大的成功,人们的生活方方面面都离不开自然语言处理技术。随着人们文化交流的需要,对一些小语种也有自然语言处理需求,往往这些语言的标注资源稀缺,限制了自然语言技术在这些语言上的发展。人们尝试使用将标注资源丰富的语言信息映射到标注资源稀缺的语言上的跨语言映射的方法。本文使用多种半监督结构化学习的技术,借助双语平行语料的词对齐关系,研究跨语言词性标注任务。本文首先把跨语言学习问题定为半监督结构化问题,使得所有的跨语言学习问题都纳入到这个框架下。然后,本文提出了跨语言直接词性标注的方法,根据词对齐关系将源语言的词性直接传递到目标语言,考虑了在没有目标语言标注数据和有少量目标语言标注数据情况下的算法。同时,研究了词对齐过滤方法,使用两种词对齐过滤融合的方法,使得跨语言映射准确率得到提高。本文又提出了协同学习在跨语言词性标注的框架,将协同学习推广到结构化学习上,研究了序列标注模型的置信度计算的问题以及词对齐种类对跨语言词性标注的影响。实验结果表明使用一对一对齐策略和基于片段的数据更新更新方法,可以得到较好的结果。最后,本文采用标签传播算法,根据词上下文信息构建词相似度图,减少由跨语言直接映射引发的噪声问题。在此过程中使用奇异值分解技术对词特征进行降维,以减少特征稀疏问题造成的影响。最后将标签传播过程估计的词性分布作为约束加入到马尔科夫随机场中。实验结果表明,我们提出的协同学习方法和标签传播算法在跨语言词性标注任务上都取得了成功,比直接映射和用少量目标语言标注数据的有监督序列标注模型效果都好。
其他文献
在新的世纪,挑战与机遇并存,可以说利用并驾驭所产生出的海量数据关系着各个行业未来的发展。在大数据领域的深入探索可以更宏观的分析数据模式,发现潜在规律并对未来趋势进
随着移动互联网的快速发展,相关应用领域也越来越受到人们的关注。人们的生活节奏不断加快,需要更多实用的知识来应对学习和工作上遇到的问题,传统的学习方式已经不能很好的
无线传感器网络(WSN)是由大量的无线传感器节点构成的一种可以具有广泛用途的网络,其可用来进行环境监测,军事监控,目标追踪等应用。通常无线传感器网络节点是一些嵌入式设备
数据库相关理论和技术是计算机专业的一门重要学科,当前数据库技术的主流是关系数据库技术,而SQL查询语言是官方标准的关系查询语言,其数学理论基础是关系代数。熟练掌握关系
几年来多投影显示技术在多媒体展示领域获得了广泛应用,几何校正技术和颜色校正技术日趋成熟,同时对多投影显示系统软件在易用性、可靠性、适用性、可扩展性等多方面提出了要
随着医学影像学的发展,涌现出了大量的高精度的成像设备,但由于不同形式的成像设备的成像机理不同,所以他们对信息的描述的侧重点不同,具有各自的局限性,通常只能较好的反映
无线传感器网络编程模型是随着无线传感器网络的发展而提出的新需求,其目的是为了提供一个易于用户使用,易于应用程序升级的无线传感器网络应用程序开发平台。因无线传感器网络
随着信息技术的发展,传统的软件开发技术难以适应软件产品在规模和复杂度上的不断增大。基于这个基本现实,软件复用技术应运而生。构件技术就是其中最重要的一种。通过构件组
随着互联网技术的快速发展,互联网上的资源数量呈指数增长的趋势,在这些海量信息中找出自己感兴趣的信息越来越难,从而出现了所谓的“信息过载”现象。个性化推荐被认为是解决这
随着互联网的发展,网络规模日益庞大,随之而来的网络安全问题也越来越成为威胁社会安全的重要因素。网络安全态势感知技术在网络安全领域获得了突飞猛进的发展,态势分析的思想也