论文部分内容阅读
本文对维吾尔语名词形态结构进行研究,并构造了名词有限状态自动机(FSM).然后针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,最后根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。本文,有机结合以上三种方法构造出了基于规则和统计的名词词干提取方法.为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计相结合的名词词干提取方法的结合,从而开发出多种策略相结合的维吾尔语名词词干提取系统,该系统具有较强的鲁棒性,准确率保持95%以上。