论文部分内容阅读
词是语言中最小的能独立运用的单位,是自然语言处理的基本单位。词法分析是自然语言处理的一个基础课题,其主要研究内容是进行词语切分和词语标注。语言学上,按照词的形态结构对各种语言进行划分,汉语属于分析型语言,而蒙古语是黏着型语言。汉语词基本上没有专门表示语法意义的附加成分,形态变化也很少;而蒙古语词内有专门表示语法意义的附加成分词缀,一个词缀表达一种语法意义,词由词干和词缀相结合构成。目前,蒙古语词法分析研究是词法分析研究领域的热点问题。本文针对蒙古语词的形态结构特点,采用统计语言模型与语言学规则相结合的方法,进行蒙古语词法分析。所完成的主要工作如下:1)针对蒙古语词由词干和词缀构成的特点,按照词形态结构设计了一种生成式的概率统计语言模型。首先,把蒙古语句子的词法分析结果描述为有向图,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系;然后,使用训练程序把训练数据转换成语言模型;最后,解码器载入上述语言模型并使用动态规划算法整句解码,找出最优词法分析结果。实验表明,基于生成式的统计语言模型提高了词级联合切分与标注的准确率,准确率可达到93.5%。2)在上述生成式统计模型的基础上,进一步加入“蒙古语语法信息词典”数据规范作为语言学构词规则,加入语言学规则后,一方面,在动态规划整句解码过程中,以词的词干作为触发条件,利用数据规范规则修正解码器候选结果概率值,给予正确候选分析结果更高概率值;另一方面,按照词类对专有名词,如人名、地名等进行候选结果后续修正处理,完善了生成式统计模型。实验表明,融合统计和规则方法比单纯统计方法词法分析效果更优,在测试集上词级联合切分与标注准确率可达95.2%。3)蒙古语词干是词语的中心成分,针对蒙古语词干提取的重要地位,设计并实现了一种基于自动机词干提取方法,首次将蒙古语词干提取任务和自动机结合,将蒙古语词表示成一种以词干为中心的主从式结构。