论文部分内容阅读
林业信息文本分类是根据建立好的分类器,让计算机对给定的林业信息文本集进行分类的过程具有理论和实用双重价值。本文详细介绍了林业信息文本特征提取的过程,利用构造的特征矩阵进行林业信息文本分类,详细分析了高斯混合模型和基于修正加权高斯牛顿的神经网络算法的原理,为林业信息文本的分类提供了新思路。本文研究主要结论:(1)本文将高斯混合模型算法引入林业信息文本分类研究中。高斯混合模型的参数估计采用参数估计算法,由于EM参数估计算法虽然是逐步收敛到最大值,但是初始值的选择对于EM算法最终的收敛效果起到很大的影响,所以本文提出了将K-means算法估算的初始结果赋值给EM参数估计算法,大大提高了EM算法参数估计的精度。由于K-means算法是聚类算法,在初始化值输入构造的高斯混合模型中时,林业信息样本的类型需要和样本群匹配,所以对于样本的要求有一定的限制,所以此处所做实验选择的是均衡的林业信息文本。(2)本文将基于修正加权高斯牛顿的神经网络算法引入林业信息文本分类研究中,基于修正加权高斯牛顿的神经网络算法(RW-GN)是BP神经网络算法的改进算法,是对神经网络算法中的训练函数进行参数优化,提高了算法的分类正确率。由于该算法是以神经网络算法为基础所以算法具有较高的稳定性,适合不均衡林业信息文本的分类,通过实验结果表明,基于加权高斯牛顿的神经网络算法对不均衡林业信息文本的分类获得了较高的准确率。(3)将本文的两种算法分别应用在林业信息的均衡与不均衡的样本中。针对算法的优点选择样本,将提出的算法实验结果与林业信息文本分类的常用算法作对比,如:BP神经网络、SVM支持向量机、贝叶斯、决策树算法。实验结果表明高斯混合模型算法适合均衡林业信息的文本分类,基于神经网络的修正加权高斯拟牛顿算法适合不均衡林业信息文本的分类,两种算法都获得了较高的准确率,具有可行性。