融合统计与规则技术的蒙古语词法分析研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:songxuesen70
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词是语言中最小的能独立运用的单位,是自然语言处理的基本单位。词法分析是自然语言处理的一个基础课题,其主要研究内容是进行词语切分和词语标注。语言学上,按照词的形态结构对各种语言进行划分,汉语属于分析型语言,而蒙古语是黏着型语言。汉语词基本上没有专门表示语法意义的附加成分,形态变化也很少;而蒙古语词内有专门表示语法意义的附加成分词缀,一个词缀表达一种语法意义,词由词干和词缀相结合构成。目前,蒙古语词法分析研究是词法分析研究领域的热点问题。本文针对蒙古语词的形态结构特点,采用统计语言模型与语言学规则相结合的方法,进行蒙古语词法分析。所完成的主要工作如下:1)针对蒙古语词由词干和词缀构成的特点,按照词形态结构设计了一种生成式的概率统计语言模型。首先,把蒙古语句子的词法分析结果描述为有向图,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系;然后,使用训练程序把训练数据转换成语言模型;最后,解码器载入上述语言模型并使用动态规划算法整句解码,找出最优词法分析结果。实验表明,基于生成式的统计语言模型提高了词级联合切分与标注的准确率,准确率可达到93.5%。2)在上述生成式统计模型的基础上,进一步加入“蒙古语语法信息词典”数据规范作为语言学构词规则,加入语言学规则后,一方面,在动态规划整句解码过程中,以词的词干作为触发条件,利用数据规范规则修正解码器候选结果概率值,给予正确候选分析结果更高概率值;另一方面,按照词类对专有名词,如人名、地名等进行候选结果后续修正处理,完善了生成式统计模型。实验表明,融合统计和规则方法比单纯统计方法词法分析效果更优,在测试集上词级联合切分与标注准确率可达95.2%。3)蒙古语词干是词语的中心成分,针对蒙古语词干提取的重要地位,设计并实现了一种基于自动机词干提取方法,首次将蒙古语词干提取任务和自动机结合,将蒙古语词表示成一种以词干为中心的主从式结构。
其他文献
随着信息技术高速发展,人们获取数据手段和途径越来越多样化,就出现了数据挖掘,它是从大量数据中提取挖掘出未能发现、潜藏但有用的信息和知识的过程。关联分析、分类、偏差
智能交通系统能够更加有效合理地分配交通流量,从而缓解交通拥挤、减少交通事故、减轻环境污染、节省出行费用,为日益严重的交通问题提供完整的解决方案。车辆导航系统是智能
本系统采用了无线传输模块来完成火灾报警控制器、火灾报警系统子机和火灾报警探测器的设计。克服了传统火灾报警系统由于信号传输采用有线方式造成故障率高、施工困难,成本
随着互联网的发展,新应用层出不穷,传统应用也在不断变化中,伴随HTML、CSS、JavaScript等技术的发展,Web网页从最初由一个服务器提供的简单文本发展到包含一些图片的超文本,到如今
安全库存是一种额外持有的库存,它作为企业的缓冲器是商务市场供应链上非常重要的一个环节。安全库存量的确定受存货需求量的变化、订货间隔期的变化、交货延误期的长短及存
无线传感网络(Wireless Sensor Networks,WSN)融合了传感器技术、通信技术和计算机技术,实现了数据采集、传输及处理的统一,已被广泛应用于各行各业,其在测控系统中的应用也
火灾是一种多发、常见的自然灾害,例如建筑火灾、矿井火灾、森林火灾、隧道火灾不仅使人类的生命和财产蒙受巨大损失,还对生态环境造成了极大的破坏。虽然现在火灾检测技术已
随着计算机网络的发展,传统的分布式计算模式已经不能满足用户的需求,人们需要一种新型的智能分布式计算模式,移动Agent计算模式应运而生。该计算模式在网络管理和互操作性上取
在三维地理信息系统(GIS)中,三维数据模型与数据结构是研究的核心。从数据描述格式的角度划分,三维空间数据模型可以归纳为面模型和体模型两种。由于体模型可以把空间对象以离
近年来,片上多核处理器成为主流,国产芯片龙芯也推出了四核处理器-龙芯3A。为了充分利用多核处理器的片上资源,使多核处理器的硬件资源转变为程序性能的提升,并行程序设计变