蒙古语词法分析的生成式统计建模

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:mmlovejj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词级及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻面了词干到词干转移概率、词缀到词级转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.8%,词级联合切分与标注正确率93.5%的好成绩。
其他文献
@@各类句子之间的关系有亲疏之分,其中疑问句和感叹句之间存在着内在的联系。最突出的一点是,很多疑问手段转化成了感叹句的标记,不论是现代汉语、古代汉语还是其他语言,都有这方面的大量例证。迄今为止学界关于四类句子的研究是极度不平衡的,而感叹句的研究是最薄弱的一环。
@@从语用平面分析,“被”字句是以主题所表示的事物为视角进行叙述的,即述题叙述该主题事物“受到”(遭受/承受)某种动作及其结果。“被”字句句式的语用意义最概括的表述就是表示“被动”(或“受动”)态,就是强调客体事物的“被动性”(或“受动性”),强调该事物“受到”(某人或某物所发出的)某种动作情状或在某种动作作用下发生某种结果情状(变化、移动、损失等)。“被”字句是现代汉语中典型的被动句。
@@2003年10月新修订的《普通话水平测试大纲》(以下简称《大纲》)颁布,全国部分省、直辖市和自治区根据《大纲》制定了在本省、市、区范围内的实施细则条款。江苏省于2004年10月1日起正式实施新《大纲》,《江苏省普通话水平测试评分细则(试行)》(以下简称《评分细则》)也同时启用,该《评分细则》“根据教育部2003年10月10日颁布的《普通话水平测试大纲》,结合江苏省普通话培训测试的实际情况,制定
普通话水平测试是普通话水平测试员凭耳朵主观感受应试人发音状况的主观性语言测试,因而,对于测试员的语音感知能力及语言分辨能力有较高要求。测试员听力水平的高低,对测试效度有着直接的影响。通过对50名测试员进行纯音测听,我们发现高频听力损失者在“j、s、z、c”会出现较高频率的误判现象,而通过语音图谱的分析进一步证实高频听力损失的测试员难以听清部分声母的发音。据此,我们总结出高频听力损失者容易混淆的字,
本文以汉蒙统计机器翻译系统为研究对象,介绍了基于混淆网络和PageRank的Nbest重排序方法。不同于以多个翻译系统为输入的系统融合技术,本文充分利用了单一系统的Nbcst输出。在单一系统Nbest基础上构建基于TER词对齐的混淆网络,然后通过PageRank排序算法输出最终的翻译结果.该方法利用了词级别的TER词对齐的混淆网络生成更多新的候选翻译选项,将最佳翻译结果的搜索问题视作网页间的PR值
本文介绍了电子政务的概念及其内蒙古电子政务的发展现状,分析了电子政务在内蒙古发展中存在的问题,并提出了发展对策。
维、汉双语远程教学系统是符合国际Unicode代码标准的,基于Internet TCP/IP协议的,能够同时支持含维吾尔文和汉文的多语种复杂文字信息的双语化多媒体远程教学系统,该系统具有维吾尔文与汉文双语界面的自动切换,双语文本显示与传输,师生双语对话,以及多媒体课件实时录制与传播,屏幕共享,电子举手与电子教鞭等功能,从而解决了传统课堂教学在时间、空间和语言上的制约问题,大大扩展了教学规模,实现名
本文利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现了一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,然后根据K-最近距离算法判断测试文本的所属类别,实验结果表明此方法可行。
《蒙古语同形词信息词典》是为解决蒙古文的同形词歧义消除而研制的一部机器词典。从词典建设维护的实际需求出发,我们初步设计和实现了《蒙古语同形词信息词典》管理平台,本文主要介绍了管理平台设计和实现的基本方法。
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,然后针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,并利用分词标注软件对大规模藏语语料库进行切分和标注,最终实