中文农业网页多分类方法研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户：xiaobaihuo197992

【摘要】

：

随着信息技术的匕速发展和互联网的普及,农业信息化的建设、服务及水平都得到了极大的促进与提高。互联网中海量、无序和繁杂的农业信息在为农业从业人员带来便利的同时,也增

【作者】

：

王霜霜

【机构】

：

新疆农业大学

【出处】

：

新疆农业大学

【发表日期】

：

2012年期

【关键词】

：

中文农业网页文本多分类特征选择特征加权机器学习支持向量机 F1测试值

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的匕速发展和互联网的普及,农业信息化的建设、服务及水平都得到了极大的促进与提高。互联网中海量、无序和繁杂的农业信息在为农业从业人员带来便利的同时,也增加了获取有效信息的难度。如何对这些农业信息进行有效的分类管理,从而方便农民朋友及时、准确地从中获取需要的实际信息,成为农业信息化领域研究的重要课题。本文的主要工作包括：1)深入研究了文本分类的关键技术,主要包括：文本预处理、中文分词、特征提取方法、特征加权算法、机器学习算法以及分类评价标准技术,以农业网页的语料库为基础,对文本多分类技术、特征提取算法、特征加权算法和机器学习算法进行了重点研究。2)对中文农业网页进行了分类标准定义,构建出中文农业网页语料库。并从导航页面类、农业新闻类、政策法规类、农业科技类和市场信息类五种类别的农业网页中分别随机抽取1000张网页共5000张网页作为多分类实验的训练样本集,同时还分别随机抽取了500张网页共2500张网页作为多分类实验的测试样本集。3)首先利用HTMLParser解析器对样本集网页进行预处理,利用庖丁解牛分词器软件对已经预处理的网页进行分词、去除停用词处理；其次利用方统计方法进行特征提取,选择各类分值中最大的前300个词作为实验特征词,利用布尔权重、词频权重和词频倒文档频权重对特征进行加权；然后利用多元线性回归、朴素贝叶斯、K最临近和支持向量机四种机器学习方法对三种不同权值的特征向量空间进行有监督学习；最终得到了12组中文农业网页的多分类模型。4)从基于相同机器学习方法、不同特征权重的角度,分析比较了12组多分类模型回测预测时的查准率、查全率和F1测度。结果表明：没有哪种特征加权方法对分类效果有绝对优势,三种特征权重在不同机器学习分类模型中各有优劣。从基于相同特征权重、不同机器学习方法的角度进行的分析对比,结果表明：K最临近算法学习能力(回测)最好,结合词频权值获得的模型,准确率、召回率及F1测度均可达到100%；支持向量机推广能力或泛化能力(预测)最好,结合布尔权值获得的模型,准确率、召回率及F1测度均可达到99%左右。总结,本文基于中文农业网页语料库随机抽取的5000张训练样本和2500张测试样本,使用文本分类技术中的特征加权算法与机器学习算法对农业网页的多分类技术进行了深入研究。通过对实验结果的分析与对比,结果表明：使用支持向量机算法结合布尔权值获得的分类器模型,对农业网页语料库有最好的多分类效果。样本回测时,准确率、召回率及F1测度均可达到99.9%；样本预测时,准确率、召回率及F1测度均可达到99%左右。

其他文献

小学美术手工课教学中纸材拓展运用探究

摘要：我国小学阶段的教学中，美术手工课程是一门知识与技能的综合课程，对学生的动手能力以及动脑能力都有着一定的考验。不仅如此，教师在美术手工课程中选用的纸材也是丰富多样的，纸材的使用以及纸材的选择问题也是美术手工教师需要思索的问题，教师还需要根据学生现状，将小学美术手工课中的纸材进行扩展运用。　　关键词：小学;美术手工;纸材扩展运用　　小学美术教学不仅培养学生审美，还开发了学生想象力，重点培养了学生

期刊

小学美术手工纸材扩展运用

区块链商业价值的评估

一、区块链技术应用的整体情况概述rn各企业应用区块链技术的时间有先有后,但步骤类似.许多企业卡壳在概念论证和生产之间.资金源可能是最主要的原因.埃森哲进行了“利用区块

期刊

子宫体后壁息肉状子宫内膜异位症恶变1例

患者女性,54岁,因“发现子宫肌瘤伴变性1月余”入院.妇科检查:宫颈(-),子宫后位,增大如孕10周,质中,表面不平,子宫后壁可触及直径约9 cm结节,活动可,轻压痛.双附件未及明显异

期刊

息肉状子宫内膜异位症子宫恶变

从粉丝文化的角度看“竹林七贤”

通过对“竹林七贤”、对粉丝分化的解读,将粉丝文化的思维带入对“竹林七贤”的分析,从而了解中国士人对自我理想人格的追求,自我身份的认同,也是一种新的思路和思考.

期刊

竹林七贤粉丝文化

《道德与法治》教学之我见

“百年大计，教育为本”，为深入贯彻党的十八届四中全会关于“将法治教育纳人国民教育体系，从青少年抓起，在中小学设立法治知识课程”的要求，教育部《关于2016年中小学教学用书有关事项的通知》提出，自2016年秋季起，初一年级的《思想品德》更名为《道德与法治》。“法治”二字首次出现在义务教育阶段的课程名称中。从以道德为主线转向道德和法治相融合，法治教育渗透于整个课程教材之中。　　新教材变化的不只是加入了

期刊

加强电力生产安全风险控制和基建安全管理水平

期刊

电力安全监察与电网安全运行的关系

期刊

定向成孔和原位成孔可降解高分子/磷酸钙骨水泥复合骨修复材料研究

针对目前磷酸钙骨水泥类骨修复材料中成孔、强度及降解之间存在的问题和矛盾,本研究采用在定向成孔可降解磷酸钙骨水泥支架材料中复合降解速度较快的高分子材料和在可注射磷

学位

磷酸钙骨水泥磷酸钙骨水泥骨修复材料骨修复材料定向成孔定向成孔原位成孔原位成孔复合降解复合降解冷冻干燥法冷冻干燥法

简化蒸发法测定土壤水分运动参数及相关技术研究

本文根据Schindler(2010)的相关文献研制了一个测定土壤导水率的装置，初步研究了采用简化蒸发法测定土壤水分特征曲线和导水率曲线的方法，并将此法测出的土壤水分运动参数结合

学位

简化蒸发法土壤水分运动参数导水率曲线

基于模糊层次分析法的电网小型基建风险管理的应用研究

期刊

中文农业网页多分类方法研究

与本文相关的学术论文