中文自然语言理解中基于条件随机场理论的词法分析研究

被引量 : 16次 | 上传用户:sduan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展和互联网的广泛普及,人们迫切需要一种自然、便捷的方式与计算机交流,使计算机能够“听懂”人类的语言。语音识别就是实现这种人机交互界面的关键技术,统计语言模型作为当前连续语音识别技术的基石之一,离不开自然语言处理技术的支持。对于中文来说,中文词法分析是中文信息处理技术的基础和关键,它直接关系到后续的句法分析和语义理解,并最终影响到实际的应用系统。因此,它一直是目前中文信息处理研究领域的一个热点和难点。本文系统地介绍了条件随机场(Conditional Random Fields,CRFs)模型及其在中文词法分析领域的应用,分析了目前主流的条件随机场模型训练准则和参数优化方法。然后以中文词法分析为应用背景,从区分性原理的角度研究了条件随机场训练准则,提出了基于条件随机场模型的交集型歧义消解方法,讨论了特定领域中的新词提取和词典优化算法,为中文词法分析的研究提供了新的方法和思路。最后简要阐述了中文词法研究在汉语语音识别中的应用。首先,本文研究了条件随机场模型区分性训练准则。目前,条件随机场模型的参数训练准则主要是基于最大似然/最大后验概率,其训练的目标是使训练语料中正确标注序列的概率最大。而以此目标建立的模型并不能保证在实际的测试环境中可以找到最佳的标注序列,从而获得较高的标注正确率。故目前的训练准则与序列标注性能评价指标之间存在着不匹配的情况。针对这一问题,本文提出了一种新的区分性训练准则—最小标注错误(Minimum Tag Error,MTE)。该准则在每条候选路径中加入该条路径相对于参考路径的正确率权重,以训练语料平均正确率最大化为目标函数。为了有效地计算平均正确度,本文还提出了一种新的前-后向算法,推导了正确率期望求解方法。实验表明,该准则不仅使切分指标的F-score值略有上升,而且使词表外(OutOf Vocabulary,OOV)词的召回率显著提高,即该准则在未知词识别的能力上具有明显的优势。同时,该准则在命名实体识别方面的性能也获得了较大的提升。其次,针对条件随机场等概率图模型不具备支持向量机(Support Vector Machine,SVM)那样良好的泛化能力,本文借鉴大间隔原理,提出了类似于大间隔思想的区分性条件随机场训练方法—增强型条件随机场(Boosted Conditional RandomFields,BCRF)。该方法不仅继承了传统CRFs凸函数的特性,保证了全局最优解,而且也融合了大间隔模型所具有的泛化能力,其内涵可理解为在正确标注序列和候选序列之间加入了一个“软间隔”,而该“软间隔”与两个序列间的汉明距离(候选序列中错误标注元素的个数)成一定的比例关系。实验结果表明,该方法与传统的最大后验概率方法相比具有明显的优势,不仅能够提高切分精度,而且能够提高OOV词和命名实体识别的能力。但与MTE方法相比,虽然其切分精度和识别性能略有下降,但其参数计算方法相对较简便,无需进行第二次前-后向算法。再次,本文讨论了中文交集型歧义消解方法。利用SVM在分类问题上的卓越表现及其适用于处理高维数据的特点,研究了SVM在交集型歧义消解问题上特征的选取原则和表示方法。通过分析交集型歧义两种切分方式之间存在的差异,采用互信息、附属种类、二字词频和单字词频四种统计量进行特征表示和融合,比较了特征的不同表示方法对分类性能的影响。实验表明,特征的选择和表示方法对SVM分类性能的提高至关重要,具有互补特性的特征组成的高维特征向量可以在很大程度上提高SVM分类器的歧义消解能力。针对SVM方法在处理链长大于1的歧义字串时必须将其转化为多个链长为1的字串进行处理所带来的不便,本文提出了一种基于条件随机场模型的歧义消解方法,将传统的二值分类问题转化为序列标注问题。该方法不仅能同时处理任意链长的歧义字串,而且对于真歧义字串,可以充分利用上下文信息给出不同语言环境下正确的切分形式。实验结果表明,该方法取得了目前最佳的性能表现。然后,讨论了特定领域中新词提取和词典优化算法。在缺少特定领域的训练语料情况下,有监督的机器学习方法不能很好地发挥其优势。基于词典的最大匹配切分方法虽然最简单有效,但由于缺乏特定领域的专业词典和新词汇的不断涌现,使得基于词典的切分算法在特定领域中的切分精度受到严重影响。本文以通用词典为初始词典,利用启发式排歧规则,在粗切分的基础上,提出了一种改进的新词提取和词典优化算法。该算法以语言模型困惑度最小化为新词提取标准,自动从候选集中提取新词,加入到初始词典得到适用于特定领域的扩充词典。为了计算候选词加入词典前后模型困惑度的变化,本文提出了一种简单有效的近似计算方法。实验结果表明,该算法不仅能提取很多特定领域的专业词汇,而且能有效地降低模型的困惑度,提高切分正确率。最后,简单介绍了语言模型在语音识别系统中的应用,分析了中文词法研究对统计语言建模的作用及其对语音识别系统性能的影响。
其他文献
主要解决了准420 mm液压支架立柱的三维建模及受力分析;依据国内制定的有关液压支架立柱技术条件的相关标准,选取准420 mm立柱的1.5倍额定轴心载荷强度分析及1.1倍额定载荷、
进入二十世纪以来,西方音乐艺术产生了巨大的变化,主张各种观点和创作手法的音乐流派在不同领域进行了探索与创新,其中在多声部创作对位领域里,多调性成了许多作曲家常用的手
目前,体育旅游作为一种新兴的旅游方式已日益突显。体育旅游的研究主要集中在对体育旅游资源的综合考察、基本概念、功能特点、资源保护与开发模式等方面,同时研究大多偏重于
针对反舰导弹航路规划的任务特点,提出了一种面向对象的反舰导弹航路规划方法。在全面分析了反舰导弹航路规划中可能用到的类的基础上,建立了对各种类的描述,使得不同算法和不同
思维的表达要靠语言,文化的交流和传播也要靠语言。学习一门语言其实就是指学习与这门语言相关的文化知识。同理可以推知,当我们讲授一门语言时其实就是在讲授这门语言所包含
毛泽东、邓小平作为党第一、二代中央领导集体的核心,在探索和实践如何搞好执政党廉政建设方面都倾注了大量心血,做出了重大贡献。对毛泽东、邓小平关于执政党廉政建设思想进
研究充分说明,声誉系统是一种在C2C(consumer to consumer)在线网络交易平台中能够有效规范卖家行为的一种机制。同时,声誉系统也被认为是传播与交流在线口碑和评价的重要平
国际制药行业生产转移到低成本地区的趋势以及全球仿制药市场的迅猛增长为我国药品生产厂家带来新一轮的机遇。制剂走出国门,开拓海外市场,尤其是欧美等规范市场,是我国长久
汉代文学研究,一直是学术界的热点。但是,在一个相当长的时期内,学术界往往停留于或从传统的中国古代文论的角度出发,着眼于文学作品的艺术特色;或从文体学角度,探讨某一类文
随着现代工业的不断发展,城市环境问题日趋严重,城市大气环境污染已经成为人们倍受关注的环境污染问题之一。建立大气环境监测数据分析系统,可以提高对大气污染监测数据的处