论文部分内容阅读
统计语言模型在自然语言处理技术中占有重要地位,在语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等许多系统中都得到了成功的应用。然而,现有的统计语言模型还存着一些缺陷,其中,对语言中常见的长距相依现象的描述能力弱、在语料变化时难以保持一致的描述能力是两个制约其产生更大应用价值的重要问题。本文针对统计语言模型存在的上述不足之处,对汉语语言模型从多个角度出发,开展了多项研究工作,旨在有效克服或缓解这些问题。论文的主要工作和研究成果如下:1、统计语言模型是基于语料而建立的,语料中各种信息的使用程度直接关系到语言模型的性能。作为开展统计语言模型研究的第一步,本文首先完成了一个语料检索工具。该工具能够使用复杂逻辑表达式进行检索,也能够通过用户自定义的表达式来检索语料中的各种语言模式。2、为了提高统计语言模型描述语言长距相依现象的能力,本文从扩大模型单元和跳跃模型单元两个方面开展了研究。本文认为扩大模型单元是解决长距相依问题的一个有效手段,为此提出了一种基于中文高频词串(Chinese Frequent String:CFS)的语言模型。本文首先给出了一种基于字串切分度的CFS抽取算法,基于该算法抽取的CFS比词具有更大的颗粒度。实验表明,在模型阶数相同的情况下,基于CFS的语言模型比基于字或词的语言模型具有更好的建模长距相依现象的能力。在跳跃模型单元方面,本文提出了一种基于汉语句子语义框架的语言模型(Semantic Frame Based Language Model:SFLM),模型基于语义框架中论元与主动词的关联直接建模句子中的长距相依关系。由于主动词框架与动词义项直接关联,本文将AdaBoosting的方法用于主动词的词义消歧中,来辅助语义框架的确定。实验表明,这种基于语义结构的N元语言模型能够有效建模长距相依关系,降低模型的复杂度。3、针对语言模型在跨语料种类时表现的性能差异问题,本文从生成模型和判别模型两种不同的训练方法上进行了研究。在生成模型方面,针对于语料改变时产生的严重数据稀疏现象,本文提出了一种对传统Kneser-Ney平滑(以后简称K-N平滑)进行优化的参数估计方法。实验表明,基于本文提出的优化K-N平滑算法的线性插值N元语言模型具有较好的跨语料适应能力。在判别模型方面,在最小样本风险(Minimum Sample Risk:MSR)训练方法中结合N-best算法,降低了算法的复杂性,进而研究了这种判别模型在不同语料下的模型性能和自适应能力。4、汉语拼音输入(拼音-汉字转换:后简称音字转换)是统计语言模型的一个重要应用领域。本文最后研究了语言模型在汉语音字转换中的应用。拼音流切分是在进行音字转换之前所必需的预处理。本文借鉴汉语字串流切分中的术语,首次归纳定义了音字转换任务中进行拼音流切分时所能遇到的两种歧义,即交集歧义和组合歧义。并分别针对两种歧义提出了相应的基于语言模型的消歧算法。实验表明,算法均具有很高的消歧性能。本文进一步将三元语言模型用于整句音字转换,由于在三元模型下不能直接采用维特比搜索算法,本文将A*启发式搜索算法应用到三元模型的最优解搜索问题上,简化了搜索的路径。实验表明,模型具有较好的音字转换能力。