基于农业文本数据的K均值聚类算法研究

被引量 : 0次 | 上传用户:leneyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的发展,网络上的信息也出现了爆炸性的增长,农业信息也是如此。常常会导致农户想要的信息得不到,不需要的信息却像“垃圾”一样多,既浪费了许多财力物力,又没有解决农户的实际需要。如何更好的组织和管理这些农业信息,就显得非常重要。本文以中文农业文本信息作为文本聚类的研究对象,并对中文农业文本信息的文本聚类过程进行了研究,主要包括:文本预处理、基于农业信息的TFIDF (Term Frequency Inverse Document Frequency, TFIDF)文本特征权重计算方法、文本聚类、性能评价。首先在研究文本聚类预处理关键技术的基础上,对各种有监督和无监督的特征权重选择算法进行了分析,重点研究了经典的TFIDF权重计算方法,并分析了该算法存在一些缺陷,然后根据农业信息自身的特点提出了一种基于农业信息的TFIDF权重计算方法,根据向量空间模型计算相似度验证了改进后的权重计算方法对提高文本相似度的有效性。然后研究了各种文本聚类算法,对各种聚类算法的性质和特点进行了详细的分析,论述了聚类结果的评价方法。针对K均值算法的一些不足之处,提出了一些优化:第一是孤立点的问题,在本文中先通过文本相似度平均值计算的方法对孤立点进行提取,避免孤立点给聚类结果带来的不良影响;第二是提出一种快速查找聚类初始中心点算法,避免中心点选择的盲目性;第三是根据快速查找聚类初始中心点的思想,提出了一种最远距离的聚类有效性函数,优化初始聚类的K值。最后通过实验分析表明改进后的TFIDF权重算法在传统K均值算法中使聚类效果有所提高;在快速查找中心点聚类的思想中,通过最远距离的聚类有效性函数能较准确的确定K值。
其他文献
分析了单轴环式拌胶机的三个主要结构参数(拌胶爪角度、拌胶爪与腔体内壁间隙和主轴转速)对刨花物料在拌胶机内腔中的运行状况和拌胶产量的影响,并对这三个结构参数进行了正
近几年来,随着信息化、电子化、互联网和物联网的迅速发展,自动服务设备不断增加。互联网产业的不断发展催生了线下物联网产业的兴起。物联网产业随着互联网产业的不断发展初
目的评价经导管子宫动脉栓塞(UAE)对子宫肌瘤的疗效及影响疗效的有关因素。方法对45例子宫肌瘤患者进行超选择性子宫动脉栓塞,其中肌瘤多发36例,单发9例;肌瘤位于肌层41例(其中5
目的探讨维持性血液透析患者炎症状态与瘙痒的关系。方法 39例维持性血液透析患者及12例正常人入选本研究。按照直观类比标度(visual analog scale,VAS)评分系统对病例组瘙痒
随着我国中小企业在国民经济建设中地位越来越重要,中小企业的发展越来越受到社会的广泛关注。中小企业在快速发展的过程中,企业创建者更多关注的是员工的工作技能与工作业绩,往
随着流体机械向高速、高压等工况的发展,密封环端面高压机械变形导致的磨损失效问题日益突出。论文对高压工况下干气密封的气膜特性、端面变形机理和变化规律开展了理论与实
<正>中国最大的钢铁企业中国宝武钢铁集团有限公司(简称"宝武钢铁")将成为新一轮钢铁行业兼并重组的国家队主力,打造钢铁行业共建共享生态圈。在2017"互联网+钢铁"双创高峰论
社会经济的发展促使汽车的应用越来越为广泛,在汽车带给人们便捷、舒适的现代生活的同时,不可避免的需担当破坏生态自然环境的责任。当能源、环保问题成为阻碍社会进步发展的
目的本研究主要包括两个研究目的,一是建立我国母乳喂养婴儿4、6月龄各项铁营养状况评估指标用于判断铁缺乏(Iron Deficiency)和缺铁性贫血(Iron Deficiency Anemia)时的实验
随着我国高等级公路向山岭、重丘地区的延伸,桥梁在公路中所占的比例不断增加。桥面铺装作为桥梁结构的重要组成部分,起着保护桥梁和承担路面功能的作用,其质量好坏直接影响