论文部分内容阅读
蒙古语模拟动词的数量较多,目前很难把所有的模拟动词全都收录到“蒙古语法信息词典”中去。所以自然语言处理中会遇到未登录模拟动词的识别问题。蒙古语模拟动词的词根和构词成分有显明的特征,根据这些特征可以归纳出一些识别规则,并对未登录模拟动词进行识别。根据模拟动词的语义和构词结构可分为拟声动词和拟状动词。通过在《蒙古语语法信息词典》和《一百万词级现代蒙古语语料库》中进行统计,找到254个拟声词根和909个拟状词根。我们用统计到的词根和构词附加成分建立二维表,以此可以识别未登录模拟动词。