大中华区词对齐自动抽取研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:wangzhy1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于文化与地域的差异,中国大陆、香港和台湾(简称大中华区)在汉字的书写和表达习惯上均存在着一定的差异。从形态学角度看,香港和台湾使用繁体字,而中国大陆则采用简体字。从语义学角度看,大中华区存在同一种语义但采用不同词语(同义异形)进行表达的语言现象。研究大中华区语言差异,一方面可以认识到中国大陆和港台之间的语言差异,另一方面可以缩小差异带来的影响,提升大中华区之间的经济、政治、文化交流体验。目前,主流的词对齐语料和计算模型都是基于双语的,主要考虑两种相差较大语言间的词对齐,例如:中文和英文、中文和日文、日文和英文等。然而,针对相似语言(方言或语言的变体)的研究却比较鲜见。基于此,本文主要研究大中华区相似语言的词对齐自动抽取问题。本文首先从互联网上抓取维基百科以及简繁体新闻平行网页,通过预处理技术提取出包含不同词语的有效大中华区平行句对,然后由两位从事计算语言学研究的高年级研究生进行人工标注对齐,语料整体标注一致性程度达95%,将其作为后继词对齐计算模型的标准语料库。此外,本文提出了两种大中华区词对齐自动抽取计算模型,其中一种是基于word2vec的两阶段大中华区词对齐模型,该模型使用word2vec表达大中华区词语的向量,结合余弦相似度计算大中华区之间词语向量的相似度,同时融合了词语映射规则进行后处理。另外一种是基于词对齐映射规则的模型,该模型综合考虑了大中华区汉语句子的表达特点,采用最长公共子序列预先过滤一部分词语,然后根据词语间的1-1、1-n和m-n三种映射规则进一步提取大中华区词语对齐。上述方法在标注的大中华区词语语料上进行试验,实验表明采用本文提出的两种大中华区词语对齐模型后,准确率与目前基于hidden Markova model(隐马尔可夫模型)、GIZA++和它们的扩展方法相比得到显著提升。本文的工作主要体现在以下两个方面:1)首先,本文构建了高一致性程度的较大规模的大中华区词对齐语料库,有效缓解了目前大中华词对齐语料库资源的缺乏。构建的语料库一方面可以为面向大中华区的词语对齐计算模型研究提供了丰富的语料库资源,另一方面也为基于大中华区的词语、句子、段落、篇章等语言学方面的研究提供了丰富的素材;2)其次,本文提出了基于word2vec和词对齐映射规则的两种词对齐自动抽取方法,这些方法充分考虑了相似语言间的自身特点,首先采用最长公共子序列的方法将词对齐预先过滤,然后分别采用词向量和词对齐的1-1、1-n和m-n映射规则有效抽取出大中华区词对齐;与同类方法(隐马尔可夫模型、GIZA++和它们的扩展)相比,本文提出的方法在大中华区语料上进行试验,将大中华区词语对齐库的识别性能提升了2-3%。总体而言,本文对大中华区词语对齐库的语料库构建和计算模型进行了较为深入的研究,提出了相关问题的一些解决方法,并设计了相应的算法和实验。实验表明,本论文提出的这些方法有助于提高大中华区词语对齐库的识别性能,减少了对大规模训练语料的依赖性,为今后的大中华区词语对齐分析研究奠定了一个重要基础,为同类研究提供了一个参考。
其他文献
随着网络技术在当今世界的繁荣发展,网络上所承载的信息量也越来越多。在各种形式的网页所展示的数据中,包含结构化形式的数据的网页占有重要的地位,如何从这些结构化数据的
人脸检测是人脸识别系统中一个重要的步骤,是一门复杂的交叉学科,涉及到模式识别,图像处理,算法设计,计算机图形学等相关学科,人脸检测结果为人脸识别提供直接处理数据,所以
学位
在基于IEEE 802.11标准的无线局域网络中,节点的无线收发器可以使用免执照的ISM无线频段(Industrial, Scientific, and Medical Bands)进行通信。因而,便携电脑和PDAs(Person
随着现代生物识别技术的不断发展,说话人识别技术受到了越来越多的专家学者的关注。通过分析说话人的语音信息,从而有效的识别说话人的身份,说话人识别技术因其简便高效的特
随着计算机技术、数字图象处理技术的不断发展,智能视频监控已经成为计算机视觉领域的一个重要研究课题。运动目标分类是智能视频监控的重要组成部分,是目标行为分析与理解的
无线传感器网络是由低成本、低功耗、具备感知、数据处理、存储和无线通信能力的微型传感器节点通过自组织方式形成的网络。能量消耗和网络覆盖是无线传感器网络的两个核心问
近年来,移动商务市场竞争异常激烈,用户体验质量越来越受到网络运营商、终端设备商和开发者的重视。目前移动商务的研究大多聚焦在商业模式、情景感知、用户交互等方面,尤其缺乏
传统的基于内容的图像检索技术使用的是顺序检索,对于海量、高维的图像数据来说,这种检索方法在效率上显然已经不能满足需要。对图像数据库进行必要的预处理并且建立索引以提
互联网上的信息十分广泛,而这里面有许多是人们关心的热点信息,这些热点网站上的内容,代表了互联网信息最受关注的部分,本文的目的就是对NBA热点网站内容进行分析,解析其中的