论文部分内容阅读
随着计算机技术的不断发展和互联网的广泛普及,人们迫切需要一种自然、便捷的方式与计算机交流,使计算机能够“听懂”人类的语言。语音识别就是实现这种人机交互界面的关键技术,统计语言模型作为当前连续语音识别技术的基石之一,离不开自然语言处理技术的支持。对于中文来说,中文词法分析是中文信息处理技术的基础和关键,它直接关系到后续的句法分析和语义理解,并最终影响到实际的应用系统。因此,它一直是目前中文信息处理研究领域的一个热点和难点。本文系统地介绍了条件随机场(Conditional Random Fields,CRFs)模型及其在中文词法分析领域的应用,分析了目前主流的条件随机场模型训练准则和参数优化方法。然后以中文词法分析为应用背景,从区分性原理的角度研究了条件随机场训练准则,提出了基于条件随机场模型的交集型歧义消解方法,讨论了特定领域中的新词提取和词典优化算法,为中文词法分析的研究提供了新的方法和思路。最后简要阐述了中文词法研究在汉语语音识别中的应用。首先,本文研究了条件随机场模型区分性训练准则。目前,条件随机场模型的参数训练准则主要是基于最大似然/最大后验概率,其训练的目标是使训练语料中正确标注序列的概率最大。而以此目标建立的模型并不能保证在实际的测试环境中可以找到最佳的标注序列,从而获得较高的标注正确率。故目前的训练准则与序列标注性能评价指标之间存在着不匹配的情况。针对这一问题,本文提出了一种新的区分性训练准则—最小标注错误(Minimum Tag Error,MTE)。该准则在每条候选路径中加入该条路径相对于参考路径的正确率权重,以训练语料平均正确率最大化为目标函数。为了有效地计算平均正确度,本文还提出了一种新的前-后向算法,推导了正确率期望求解方法。实验表明,该准则不仅使切分指标的F-score值略有上升,而且使词表外(OutOf Vocabulary,OOV)词的召回率显著提高,即该准则在未知词识别的能力上具有明显的优势。同时,该准则在命名实体识别方面的性能也获得了较大的提升。其次,针对条件随机场等概率图模型不具备支持向量机(Support Vector Machine,SVM)那样良好的泛化能力,本文借鉴大间隔原理,提出了类似于大间隔思想的区分性条件随机场训练方法—增强型条件随机场(Boosted Conditional RandomFields,BCRF)。该方法不仅继承了传统CRFs凸函数的特性,保证了全局最优解,而且也融合了大间隔模型所具有的泛化能力,其内涵可理解为在正确标注序列和候选序列之间加入了一个“软间隔”,而该“软间隔”与两个序列间的汉明距离(候选序列中错误标注元素的个数)成一定的比例关系。实验结果表明,该方法与传统的最大后验概率方法相比具有明显的优势,不仅能够提高切分精度,而且能够提高OOV词和命名实体识别的能力。但与MTE方法相比,虽然其切分精度和识别性能略有下降,但其参数计算方法相对较简便,无需进行第二次前-后向算法。再次,本文讨论了中文交集型歧义消解方法。利用SVM在分类问题上的卓越表现及其适用于处理高维数据的特点,研究了SVM在交集型歧义消解问题上特征的选取原则和表示方法。通过分析交集型歧义两种切分方式之间存在的差异,采用互信息、附属种类、二字词频和单字词频四种统计量进行特征表示和融合,比较了特征的不同表示方法对分类性能的影响。实验表明,特征的选择和表示方法对SVM分类性能的提高至关重要,具有互补特性的特征组成的高维特征向量可以在很大程度上提高SVM分类器的歧义消解能力。针对SVM方法在处理链长大于1的歧义字串时必须将其转化为多个链长为1的字串进行处理所带来的不便,本文提出了一种基于条件随机场模型的歧义消解方法,将传统的二值分类问题转化为序列标注问题。该方法不仅能同时处理任意链长的歧义字串,而且对于真歧义字串,可以充分利用上下文信息给出不同语言环境下正确的切分形式。实验结果表明,该方法取得了目前最佳的性能表现。然后,讨论了特定领域中新词提取和词典优化算法。在缺少特定领域的训练语料情况下,有监督的机器学习方法不能很好地发挥其优势。基于词典的最大匹配切分方法虽然最简单有效,但由于缺乏特定领域的专业词典和新词汇的不断涌现,使得基于词典的切分算法在特定领域中的切分精度受到严重影响。本文以通用词典为初始词典,利用启发式排歧规则,在粗切分的基础上,提出了一种改进的新词提取和词典优化算法。该算法以语言模型困惑度最小化为新词提取标准,自动从候选集中提取新词,加入到初始词典得到适用于特定领域的扩充词典。为了计算候选词加入词典前后模型困惑度的变化,本文提出了一种简单有效的近似计算方法。实验结果表明,该算法不仅能提取很多特定领域的专业词汇,而且能有效地降低模型的困惑度,提高切分正确率。最后,简单介绍了语言模型在语音识别系统中的应用,分析了中文词法研究对统计语言建模的作用及其对语音识别系统性能的影响。