中文统计自然语言处理隐马模型的研究

被引量 : 0次 | 上传用户:yangzhouzhoudaojun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理,相对其它领域,如编程语言,具有特殊的因难,主要表现在知识的获取与使用上。早期自然语言处理的知识几乎都是人工总结的,如机器翻译词典、各种文法等。然而,语言是社会发展的产物,不是简单的可以由"专家"总结和收集的;人工收集知识存在表达不一致、过于武断、代价高昂、不适应应用领域变化等缺点。Internet的发展和各种数字资源的丰富,使得应用统计方法来收集NLP(Natural Language Processing)知识成为可能。这种方法无须先验知识、适应性强、知识获取成本低,近年来获得了很大发展,尤其在语音识别、OCR等领域的应用获得了较大成功。本文以隐马尔可夫Trigram模型为核心,研究中文的统计语言建模问题,包括单语语料库收集与整理、模型选择、训练、平滑、压缩等问题,并开发出一套通用的、面向对象的中文统计语言建模工具箱。论文对原有Trigram的HMM统计模型进行改进,使其具有更多的长距依存能力, 促进统计语言模型在中文自然语言处理领域的应用。论文主要贡献如下:首先,本文根据中文自然语言处理的特点,重新考察了应用于西方语言的语料库收集、模型训练、平滑、压缩方法,分别研究它们的特点以及对中文Trigram模型性能的影响。通过实验找出使中文Trigram模型性能最大化的组合方法。 其次,本文针对HMM Trigram模型只能表达短距依存的缺点进行改进,通过对现代汉语各种依存现象的研究,引入新的长距依存方法,提出一种改进模型LP-Trigram。同时,本文对原有HMM Trigram的Viterbi算法进行扩充,在保证原有模型的尺寸及速度不发生重大变化的情况下,使模型具有长距依存能力,排除了部分歧义,使得模型的性能得到局部改善。 然后,本文以中文拼音-汉字转换系统为应用实例,测试改进系统的性能,即音-字转换的正确率。实验证明,改进的模型排除了原有模型的一些转换错误,能使长距依存现象在HMM Trigram模型中得到正确的表达。最后,对全文的工作进行总结,并指出有待进一步完成的工作。
其他文献
铝合金具有重量轻、强度高、耐腐蚀等优点,在现代工业生产中得到了广泛应用。TIG焊作为最常用的铝合金焊接方法具有焊接质量高、可进行全位置焊接等众多优点,但由于所形成的单
中国近代海关是一个隶属于清政府,却又由洋员控制的特殊机构。与传统海关相比,其组织结构和管理体制有许多鲜明的特点,尤其令人瞩目的是贪污舞弊行为的大为减少。迄今为止,尽管学
“文革”文学一片空白是多年来比较流行的看法,“文革”新诗研究在此背景下也受到漠视。所幸已有不少学者涉猎“文革”文学或“文革”新诗研究,取得斐然可观的成绩。本文站在已
<正> 上海气动元件厂是生产气动元件的专业工厂。1981年引进西德HERION公司气动元件许可证制造技术,共四大类96个品种规格。二位二通膜片式电磁阀:8~25mm通径常断型,32~50mm通
我国已正式加入WTO,入世对我国的法制建设将会产生深远影响。WTO法律制度,特别是规范国际投资的规则,赋予了国际投资及国际投资法以新的理念和发展方向。我国在享有WTO所赋予的
阐述了市政工程项目造价控制的重要意义,通过分析影响工程项目造价控制的因素,总结了施工准备阶段、施工阶段及竣工阶段的造价控制要点,以提高市政工程项目造价控制的水平。
通过成都地区某基坑工程应急抢险加固设计案例,阐述了门架式排桩受力机理及检测效果评价,指出采用有限元分析避免了传统方法为简化计算所作的某些有失偏颇的假定,理论上更为
2000级课程与教学论专业教学心理学方向研究生 李勉媛 导师 沈阳副教授自尊是个体在社会比较过程中所获得的对自我价值的积极的情感体验。健康的自尊感与各种积极的心
在国际经济交往中,为了有效地控制交易风险,并尽可能地减少用现金作担保,一种新型的独立于基础交易的银行担保出现了,即银行见索即付担保。由于见索即付担保涉及的问题很多,有实体
结合中华传统以人为本、天人合一的思想,对建筑在未来的发展趋势进行了研究,阐述了人性化建筑、智能化建筑、绿色建筑的发展现状及方向,对建筑的可持续发展有重要的意义。