融合统计与规则技术的蒙古语词法分析研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户：songxuesen70

【摘要】

：

词是语言中最小的能独立运用的单位,是自然语言处理的基本单位。词法分析是自然语言处理的一个基础课题,其主要研究内容是进行词语切分和词语标注。语言学上,按照词的形态结

【作者】

：

赵理莉

【机构】

：

河南师范大学

【出处】

：

河南师范大学

【发表日期】

：

2011年期

【关键词】

：

自然语言处理词法分析蒙古语分词蒙古语词性标注蒙古语词干提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

词是语言中最小的能独立运用的单位,是自然语言处理的基本单位。词法分析是自然语言处理的一个基础课题,其主要研究内容是进行词语切分和词语标注。语言学上,按照词的形态结构对各种语言进行划分,汉语属于分析型语言,而蒙古语是黏着型语言。汉语词基本上没有专门表示语法意义的附加成分,形态变化也很少;而蒙古语词内有专门表示语法意义的附加成分词缀,一个词缀表达一种语法意义,词由词干和词缀相结合构成。目前,蒙古语词法分析研究是词法分析研究领域的热点问题。本文针对蒙古语词的形态结构特点,采用统计语言模型与语言学规则相结合的方法,进行蒙古语词法分析。所完成的主要工作如下:1)针对蒙古语词由词干和词缀构成的特点,按照词形态结构设计了一种生成式的概率统计语言模型。首先,把蒙古语句子的词法分析结果描述为有向图,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系;然后,使用训练程序把训练数据转换成语言模型;最后,解码器载入上述语言模型并使用动态规划算法整句解码,找出最优词法分析结果。实验表明,基于生成式的统计语言模型提高了词级联合切分与标注的准确率,准确率可达到93.5%。2)在上述生成式统计模型的基础上,进一步加入“蒙古语语法信息词典”数据规范作为语言学构词规则,加入语言学规则后,一方面,在动态规划整句解码过程中,以词的词干作为触发条件,利用数据规范规则修正解码器候选结果概率值,给予正确候选分析结果更高概率值;另一方面,按照词类对专有名词,如人名、地名等进行候选结果后续修正处理,完善了生成式统计模型。实验表明,融合统计和规则方法比单纯统计方法词法分析效果更优,在测试集上词级联合切分与标注准确率可达95.2%。3)蒙古语词干是词语的中心成分,针对蒙古语词干提取的重要地位,设计并实现了一种基于自动机词干提取方法,首次将蒙古语词干提取任务和自动机结合,将蒙古语词表示成一种以词干为中心的主从式结构。

其他文献

决策树在应用型本科高校就业管理中的应用研究

随着信息技术高速发展,人们获取数据手段和途径越来越多样化,就出现了数据挖掘,它是从大量数据中提取挖掘出未能发现、潜藏但有用的信息和知识的过程。关联分析、分类、偏差

学位

数据挖掘决策树C4.5算法应用型本科就业

基于蚁群算法的车辆导航自适应路径规划算法研究

智能交通系统能够更加有效合理地分配交通流量,从而缓解交通拥挤、减少交通事故、减轻环境污染、节省出行费用,为日益严重的交通问题提供完整的解决方案。车辆导航系统是智能

学位

车辆导航系统路径规划道路权重蚁群算法A*算法WebGIS

基于无线传输模块的火灾自动报警系统研究

本系统采用了无线传输模块来完成火灾报警控制器、火灾报警系统子机和火灾报警探测器的设计。克服了传统火灾报警系统由于信号传输采用有线方式造成故障率高、施工困难,成本

学位

单片机火灾报警无线数据传输传感器

Web应用流量与技术分析

随着互联网的发展，新应用层出不穷，传统应用也在不断变化中，伴随HTML、CSS、JavaScript等技术的发展，Web网页从最初由一个服务器提供的简单文本发展到包含一些图片的超文本，到如今

学位

Web流量超文本传输协议网络拥塞服务器集群内容分发网络

基于改进BP算法的安全库存量预测模型的研究

安全库存是一种额外持有的库存,它作为企业的缓冲器是商务市场供应链上非常重要的一个环节。安全库存量的确定受存货需求量的变化、订货间隔期的变化、交货延误期的长短及存

学位

BP神经网络改进算法安全库存预测模型数据分析

动态可配置WSN通用测控系统的应用研究

无线传感网络(Wireless Sensor Networks,WSN)融合了传感器技术、通信技术和计算机技术,实现了数据采集、传输及处理的统一,已被广泛应用于各行各业,其在测控系统中的应用也

学位

无线传感网络测控系统组态软件构件通用性

基于视频的火灾检测方法研究及FPGA实现

火灾是一种多发、常见的自然灾害,例如建筑火灾、矿井火灾、森林火灾、隧道火灾不仅使人类的生命和财产蒙受巨大损失,还对生态环境造成了极大的破坏。虽然现在火灾检测技术已

学位

火灾检测视频火焰区域提取算法火焰检测算法现场可编程门阵列

移动Agent系统中可靠通信算法研究

随着计算机网络的发展，传统的分布式计算模式已经不能满足用户的需求，人们需要一种新型的智能分布式计算模式，移动Agent计算模式应运而生。该计算模式在网络管理和互操作性上取

学位

移动Agent消息传递通信失效通信机制算法改进

三维体数据生成及三维缓冲区分析

在三维地理信息系统(GIS)中，三维数据模型与数据结构是研究的核心。从数据描述格式的角度划分，三维空间数据模型可以归纳为面模型和体模型两种。由于体模型可以把空间对象以离

学位

实体体素化表面体素化三维缓冲区分析海量数据

龙芯多核平台上性能分析工具的设计与实现

近年来,片上多核处理器成为主流,国产芯片龙芯也推出了四核处理器-龙芯3A。为了充分利用多核处理器的片上资源,使多核处理器的硬件资源转变为程序性能的提升,并行程序设计变

学位

PMU性能分析工具单进程采样多线程分析

融合统计与规则技术的蒙古语词法分析研究

与本文相关的学术论文