蒙古语未登录模拟动词识别方法

来源 :第二届全国少数民族青年自然语言处理学术研讨会 | 被引量 : 0次 | 上传用户:aacpc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古语模拟动词的数量较多,目前很难把所有的模拟动词全都收录到“蒙古语法信息词典”中去。所以自然语言处理中会遇到未登录模拟动词的识别问题。蒙古语模拟动词的词根和构词成分有显明的特征,根据这些特征可以归纳出一些识别规则,并对未登录模拟动词进行识别。根据模拟动词的语义和构词结构可分为拟声动词和拟状动词。通过在《蒙古语语法信息词典》和《一百万词级现代蒙古语语料库》中进行统计,找到254个拟声词根和909个拟状词根。我们用统计到的词根和构词附加成分建立二维表,以此可以识别未登录模拟动词。
其他文献
基于trigger对的长距离蒙古语语言模型采用统计方法进行自然语言建模。本文简要介绍了基于trigger对的长距离蒙古语语言模型的三种实现方法,并在汉语一蒙古语机器翻译系统测试
本文首先从100万词级现代蒙古语语料库中抽取现代蒙古语典型的兼类词HELE、OCI、IDE的搭配分布情况,计算其MI值和Z值,得到了它们的诸显著搭配词。然后,通过分析归纳HELE、OCI、I
句子是语言的最基本的交际单位,探索句子的内部规律,描写句子的意义成为语言学研究的核心问题。本文主要借鉴词库理论,从系统论的观点和语言描写的立场出发,着眼于构建面向现代朝
会议
名词的语义关系包括,名词的语义类别,名词的属性特征关系、名词与名词之间的语义关系、名词与修饰词之间的语义关系、名词与动词之间的语义关系。本文阐释了名词的语义关系,提出
目前,西门子集团的罗凯·马洛尔研究公司经过研究发现,未来一个国家的移动电话设施可以作为一种对付隐形飞机的有效雷达系统.
随着蒙古文信息处理和电子出版业的迅猛发展,文本校对的工作量大大增加,自动校对已成为一个亟待解决的课题。本文首先分析了蒙古文电子文本中存在的错误类型,出错原因以及常用的
会议
本文叙述了现代维吾尔语词类体系和构词自动机,确定了现代维吾尔语词性标注标记集。最终提出了一种基于规则的维吾尔语词性自动标注的方法,介绍了整个系统的结构并且对自动标注
维吾尔语单词的构形词缀按照一定的规则连接到词干,维吾尔语的黏着语特点和构形词缀连接规则使得可以构造维吾尔语构形词缀的有限状态自动机。本文将详细介绍维吾尔语形容词
词性标注有很多不同的研究方法,目前的维吾尔语词性标注的方法都以基于规则的方法为主。本文在大规模人工标注的语料库的基础上研究了基于N-gram模型的维吾尔语词性
会议
本文研究了哈萨克语自动词法分析中的构形附加成分的切分和词干提取问题。系统首先对待切分词使用有限状态自动机进行分析。如果成功则将输出作为切分结果,否则再使用双向全切
会议