论文部分内容阅读
当今互联网高速发展,人类社会迈入网络信息爆炸时代,这带来了网络上农业知识信息的激增,给农业从业者带来了农业信息查找的便利。知识意味着财富,农业从业者从这些农业信息中撷取财富信息,然而,海量的农业知识信息不意味着可以快速有效的查询出所需信息,农业领域细化信息的快速定位与分类查找是必要与必须的。本文以农业信息搜索引擎分类器为研究对象,全面的介绍了当前信息文本分类器现状、国内外分类器发展历程,在分类特征提取、训练样本和众多分类算法基础上,从农业信息文本分类特征项提取方式上从手,提出了具有农业信息文本特色的特征提取方式,在此特征项训练基础上,建立农业信息文本训练库,针对分类算法分类效果各有差异,使用改进优化后的朴素贝叶斯分类器对农业信息进行分类,设计实现了农业信息搜索引擎分类器系统。世界上不会存在一模一样的两片叶子,每个对象都具有其独特性,文本信息对象也都具有各自独有识别特征以供识别分类。本文对文本特征提取四种方式信息增益、互信息、卡方统计和文档频率进行算法论述与实现实验比较,提出农业信息文本特征提取方式:基于文档频率的文本特征提取,将TF-IDF、空间向量模型与余弦相关度的计算运用其中,在此基础上,依据农业信息分类原则,根据识别度,选取各农业类别的文本信息,最终建立了农业信息文本训练库。任何一种分类算法都不具有绝对优越性,都存在不同分类偏差,不同文本信息,分类器分类效果不一样。本文实验比较了决策树算法、K-近邻算法、支持向量机和朴素贝叶斯四种分类算法对农业信息文本分类情况,运用并改进优化朴素贝叶斯分类器,主要改进点两个方面:朴素贝叶斯算法计算公式变化,将二值模型变换成多项式模型,建立多项式模型公式,进行实验结果数据比较;在分类器部署方式上,将分类器分布式部署到多台计算机,采用Top-N算法排序结果,进行实验结果数据比较。本文根据多组分类实验比较结果,在软件设计理论上,结合上述改进优化后朴素贝叶斯算法,使用农业信息文本训练库,设计并实现了农业信息搜索引擎分类器系统,对农业信息文本分类实验测试得出结果数据。实验结果表明,经改进优化后朴素贝叶斯分类器分类精度更高,分类速度更快,是实用可靠的农业信息搜索引擎分类器系统。综上,本文在农业信息搜索引擎抓取农业信息文本基础上,从分类信息文本特征提取、农业信息文本训练、分类算法上对农业信息文本分类器研究,通过实验对比,提出农业信息分类特征提取方式,建立农业信息文本训练库,从算法上对朴素贝叶斯分类器改进,从部署上,将分类器系统分布式部署分类,最终达到改进优化农业信息文本分类器。本文为农业信息文本分类提供了理论和基础实验平台,同时,本文研究也可作为实际应用推广应用。