论文部分内容阅读
随着计算机技术的发展,尤其是计算机网络的广泛普及和迅速发展,自然语言处理也越来越多地受到了广大计算机工作者的重视。在这样的大环境下,民文信息处理技术也应运而生。中央提出的“一带一路”的战略规划,使得民文信息处理技术的发展显得尤为重要,并且也迎来了难得的机遇和挑战。
本文从维吾尔文字的多模式、多编码的特点入手,根据维吾尔文的黏着型的特点,提出了维吾尔语阿拉伯文与维吾尔语斯拉夫文间的转换系统;之后对维吾尔文的词性标注、词干提取进行了阐述;最后在该系统的基础上分析了三种分类器对维吾尔文进行分类的结果,最后得出结论。主要研究内容如下:
(1) 提出了一种基于规则与词典结合转化编码算法,选用微软中间件,采用二进制文件结构和二分法查找方法,开发并实现一个编码转换原型系统。
(2) 提出了一个融合词干与词缀形态特征的基于最大熵的维吾尔文词性标注模型。构造了词性标注特征模版,并设计了相应的特征函数。实验结果分析表明,最大熵模型可以较好地处理兼类词和未登录词的词性标注问题,标注准确率比其他标注系统有明显提高。
(3) 提出了一种多策略集成的维吾尔文的名词词干提取方法,设计了基于规则与词典相结合、最大熵和有限状态自动机的词干切分策略。在权威语料库的平台上进行了实验,结果表明,本文提出的方法提高了名词词干提取的准确率。
(4) 本文介绍了维吾尔文的文本分类技术,建立了一定规模的文本语料库。采用词干提取方法降低了向量空间维数,采用CHI统计特征选择方法。在较大规模文本语料库基础上分析了KNN,朴素贝叶斯(NB),SVM等每一种算法在维吾尔文文本上的性能。实验结果表明SVM分类器性能最好。
本文对维吾尔文自然语言处理中编码转换、词性标注、词干提取及其在文本分类中的性能进行了分析和研究,得到了有一定价值的结果,并为以后的研究提供了基础。
本文从维吾尔文字的多模式、多编码的特点入手,根据维吾尔文的黏着型的特点,提出了维吾尔语阿拉伯文与维吾尔语斯拉夫文间的转换系统;之后对维吾尔文的词性标注、词干提取进行了阐述;最后在该系统的基础上分析了三种分类器对维吾尔文进行分类的结果,最后得出结论。主要研究内容如下:
(1) 提出了一种基于规则与词典结合转化编码算法,选用微软中间件,采用二进制文件结构和二分法查找方法,开发并实现一个编码转换原型系统。
(2) 提出了一个融合词干与词缀形态特征的基于最大熵的维吾尔文词性标注模型。构造了词性标注特征模版,并设计了相应的特征函数。实验结果分析表明,最大熵模型可以较好地处理兼类词和未登录词的词性标注问题,标注准确率比其他标注系统有明显提高。
(3) 提出了一种多策略集成的维吾尔文的名词词干提取方法,设计了基于规则与词典相结合、最大熵和有限状态自动机的词干切分策略。在权威语料库的平台上进行了实验,结果表明,本文提出的方法提高了名词词干提取的准确率。
(4) 本文介绍了维吾尔文的文本分类技术,建立了一定规模的文本语料库。采用词干提取方法降低了向量空间维数,采用CHI统计特征选择方法。在较大规模文本语料库基础上分析了KNN,朴素贝叶斯(NB),SVM等每一种算法在维吾尔文文本上的性能。实验结果表明SVM分类器性能最好。
本文对维吾尔文自然语言处理中编码转换、词性标注、词干提取及其在文本分类中的性能进行了分析和研究,得到了有一定价值的结果,并为以后的研究提供了基础。