论文部分内容阅读
由于文化与地域的差异,中国大陆、香港和台湾(简称大中华区)在汉字的书写和表达习惯上均存在着一定的差异。从形态学角度看,香港和台湾使用繁体字,而中国大陆则采用简体字。从语义学角度看,大中华区存在同一种语义但采用不同词语(同义异形)进行表达的语言现象。研究大中华区语言差异,一方面可以认识到中国大陆和港台之间的语言差异,另一方面可以缩小差异带来的影响,提升大中华区之间的经济、政治、文化交流体验。目前,主流的词对齐语料和计算模型都是基于双语的,主要考虑两种相差较大语言间的词对齐,例如:中文和英文、中文和日文、日文和英文等。然而,针对相似语言(方言或语言的变体)的研究却比较鲜见。基于此,本文主要研究大中华区相似语言的词对齐自动抽取问题。本文首先从互联网上抓取维基百科以及简繁体新闻平行网页,通过预处理技术提取出包含不同词语的有效大中华区平行句对,然后由两位从事计算语言学研究的高年级研究生进行人工标注对齐,语料整体标注一致性程度达95%,将其作为后继词对齐计算模型的标准语料库。此外,本文提出了两种大中华区词对齐自动抽取计算模型,其中一种是基于word2vec的两阶段大中华区词对齐模型,该模型使用word2vec表达大中华区词语的向量,结合余弦相似度计算大中华区之间词语向量的相似度,同时融合了词语映射规则进行后处理。另外一种是基于词对齐映射规则的模型,该模型综合考虑了大中华区汉语句子的表达特点,采用最长公共子序列预先过滤一部分词语,然后根据词语间的1-1、1-n和m-n三种映射规则进一步提取大中华区词语对齐。上述方法在标注的大中华区词语语料上进行试验,实验表明采用本文提出的两种大中华区词语对齐模型后,准确率与目前基于hidden Markova model(隐马尔可夫模型)、GIZA++和它们的扩展方法相比得到显著提升。本文的工作主要体现在以下两个方面:1)首先,本文构建了高一致性程度的较大规模的大中华区词对齐语料库,有效缓解了目前大中华词对齐语料库资源的缺乏。构建的语料库一方面可以为面向大中华区的词语对齐计算模型研究提供了丰富的语料库资源,另一方面也为基于大中华区的词语、句子、段落、篇章等语言学方面的研究提供了丰富的素材;2)其次,本文提出了基于word2vec和词对齐映射规则的两种词对齐自动抽取方法,这些方法充分考虑了相似语言间的自身特点,首先采用最长公共子序列的方法将词对齐预先过滤,然后分别采用词向量和词对齐的1-1、1-n和m-n映射规则有效抽取出大中华区词对齐;与同类方法(隐马尔可夫模型、GIZA++和它们的扩展)相比,本文提出的方法在大中华区语料上进行试验,将大中华区词语对齐库的识别性能提升了2-3%。总体而言,本文对大中华区词语对齐库的语料库构建和计算模型进行了较为深入的研究,提出了相关问题的一些解决方法,并设计了相应的算法和实验。实验表明,本论文提出的这些方法有助于提高大中华区词语对齐库的识别性能,减少了对大规模训练语料的依赖性,为今后的大中华区词语对齐分析研究奠定了一个重要基础,为同类研究提供了一个参考。