论文部分内容阅读
随着信息技术的匕速发展和互联网的普及,农业信息化的建设、服务及水平都得到了极大的促进与提高。互联网中海量、无序和繁杂的农业信息在为农业从业人员带来便利的同时,也增加了获取有效信息的难度。如何对这些农业信息进行有效的分类管理,从而方便农民朋友及时、准确地从中获取需要的实际信息,成为农业信息化领域研究的重要课题。本文的主要工作包括:1)深入研究了文本分类的关键技术,主要包括:文本预处理、中文分词、特征提取方法、特征加权算法、机器学习算法以及分类评价标准技术,以农业网页的语料库为基础,对文本多分类技术、特征提取算法、特征加权算法和机器学习算法进行了重点研究。2)对中文农业网页进行了分类标准定义,构建出中文农业网页语料库。并从导航页面类、农业新闻类、政策法规类、农业科技类和市场信息类五种类别的农业网页中分别随机抽取1000张网页共5000张网页作为多分类实验的训练样本集,同时还分别随机抽取了500张网页共2500张网页作为多分类实验的测试样本集。3)首先利用HTMLParser解析器对样本集网页进行预处理,利用庖丁解牛分词器软件对已经预处理的网页进行分词、去除停用词处理;其次利用方统计方法进行特征提取,选择各类分值中最大的前300个词作为实验特征词,利用布尔权重、词频权重和词频倒文档频权重对特征进行加权;然后利用多元线性回归、朴素贝叶斯、K最临近和支持向量机四种机器学习方法对三种不同权值的特征向量空间进行有监督学习;最终得到了12组中文农业网页的多分类模型。4)从基于相同机器学习方法、不同特征权重的角度,分析比较了12组多分类模型回测预测时的查准率、查全率和F1测度。结果表明:没有哪种特征加权方法对分类效果有绝对优势,三种特征权重在不同机器学习分类模型中各有优劣。从基于相同特征权重、不同机器学习方法的角度进行的分析对比,结果表明:K最临近算法学习能力(回测)最好,结合词频权值获得的模型,准确率、召回率及F1测度均可达到100%;支持向量机推广能力或泛化能力(预测)最好,结合布尔权值获得的模型,准确率、召回率及F1测度均可达到99%左右。总结,本文基于中文农业网页语料库随机抽取的5000张训练样本和2500张测试样本,使用文本分类技术中的特征加权算法与机器学习算法对农业网页的多分类技术进行了深入研究。通过对实验结果的分析与对比,结果表明:使用支持向量机算法结合布尔权值获得的分类器模型,对农业网页语料库有最好的多分类效果。样本回测时,准确率、召回率及F1测度均可达到99.9%;样本预测时,准确率、召回率及F1测度均可达到99%左右。