一个增量式粮食单位信息聚类分析系统和实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:alonsoyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文所实现的部分是吉林省科技厅重大科技资助项目――“粮食管理信息智能决策支持系统”中的一部分。本系统主要以吉林省粮食工作为背景,利用数据仓库,数据挖掘,统计分析,知识推理等多方面的知识手段,针对实际中粮食工作的各个环节如粮食收购,粮食运输,粮食轮换,粮食调拨以及粮食业务报表生成,数据查询分析等方面进行了粮食数据仓库的建立,并在数据仓库的基础上建立了数据多维分析、粮食保管决策支持、粮食轮换决策支持、粮食调拨决策支持、粮库信息聚类分析、粮食预警预测以及GIS查询分析等模块,本文实现的就是其中的粮库信息聚类分析模块。本文利用数据挖掘中的聚类分析方法对各级粮食单位的各种信息指标包括自然指标(粮库面积,职工人数,运输线路情况等)和经营指标(年收购数量,烘晒数量,轮换数量等)进行聚类,根据自然条件和经济条件把这些粮食单位分为类间差异较大而自身特点比较显著的一些类,进而通过对聚类结果的统计分析得出一个所有粮食企业单位发展概况的分析,其中包括粮食企业发展的层次情况,各层次中企业的详细情况描述数据,不同层次的企业地理分布情况,还可以通过方差分析等方法分析对粮库层次分类影响较大的指标项。通过提供以上这些分析数据为粮食行业领导在总结粮食行业过去发展过程中的政策实施效果,调整粮食行业未来发展战略,制定地区粮食行业政策等方面提供决策支持。本文使用了常用的层次聚类分析法和分裂聚类分析法,层次聚类分析法采用凝聚式的聚类方法,每次聚类把距离最近的两个样本或小类聚成一类,直到所有的样本都聚成一类或者达到用户指定的类数,这种方法计算周密,结果准确而且用户可以通过对整个聚类过程的分析来了解整个样本集的结构特点;分裂聚类分析法又称k均值聚类分析法,它的特点是速度较快但是结果会受其他因素的影响比如初始中心点的选择等等,因此有时结果并不理想。这两种方法实际工作中需要结合数据量实际情况两种方法配合使用,一般情况下数据量较少的情况下可以直接运用层次聚类分析法,但是粮食数据仓库数据量一般都是很大的,因此用户可以先用层次聚类分析法对数据进行一次聚类,然后分析层次聚类的过程,找出一个合适的聚类结果数目,然后在以后的一段时间内可以用分裂聚类算法按照这个结果数目进行聚类。本文还详细讨论并实现了聚类算法中的一些关键问题,比如聚类过程中<WP=58>的距离计算方法,异常数据的处理,聚类限制条件的处理,分裂聚类算法初始中心点的选择等等。粮食行业数据仓库数据量大而且更新较快,只使用层次聚类和分裂聚类效率 和结果准确性不是很理想,而且很多时间内要做新的聚类过去的结果却利用不上,针对这种情况,本文提出了一种增量式的层次聚类分析法,用基于距离的方法在已有的层次聚类结果或者分裂聚类结果基础上进行聚类。增量聚类的工作主要分为三部分,第一部分是获得增量数据,本系统中采用针对聚类工程建立一张增量数据表,通过建立触发器的方法在更新业务数据的同时更新增量数据表;第二部分是对已有结果根据增量数据进行增量修改,包括添加,删除,修改,并根据修改结果调整类结构;第三部分是对增量修改结果结果进行层次聚类,所用方法和层次聚类算法是相同的。通过实际测试显示这种方法既能有效利用已有的聚类结果,又能提高聚类速度,而且聚类结果比较理想,在数据仓库数据量较大,更新较频繁的时候,这种方法可以得到很好的聚类效果。在聚类结果的分析展示方面,本文提供了用来展示层次聚类过程的“聚类过程展示图”、用来统计聚类结果中各类各指标均值的“各类指标均值柱状展示图”、用来比较各类之间指标差异的“类间指标变化比较图”,还有结合GIS地理信息系统查询模块用来直观展示聚类结果地理分布的“GIS地理分布图”。本文结合不同的展示方法,力争为用户展示一个多角度,更直观更易理解的聚类分析结果,为用户思考决策提供更好的参照。粮食智能决策支持系统目前提供的聚类分析只有对粮库信息方面的聚类分析,但在设计和开发过程中开发者力争实现一个适应面广,可配置的粮食行业聚类分析工具,粮食专家可以用这个聚类分析工具可以建立不同方面的聚类工程,选择数据来源,指定和题目相关并且用户感兴趣的指标,选择合适的聚类方法等等。这样用户在使用的时候只要选择自己感兴趣的聚类工程进行聚类,然后用不同的结果分析方法来查看结果就可以了,要达到这个目标,该系统还需要进一步完善。
其他文献
目前,绝大部分医院都已实施HIS,在各分散的医疗单位积累了一定的信息资源.然而这些有用的电子信息大多局限在本部门使用,共享程度不高.而从信息孤岛状况达到医疗信息社会化,
散射场景深度重建,就是指对浸泡在散射介质中的场景进行深度重建。现有的散射场景深度重建方法分为两类:被动式和主动式;前者基于自然光的传播模型来重建场景的深度;后者则使
Because of the need to ensure that only those eyes intended to view sensitive information can ever see this information, and to ensure that the information arri
互操作性是新一代多媒体通信的发展趋势,而在实时多媒体通信领域中H.263和MPEG-4已经成为两大各具特色的甚低码率(VLBR)视频编码标准,我们关注到ITU-T的H.263在有线网络作为
随着信息时代科学技术的突飞猛进,地理信息系统(GIS)成为了信息技术(IT)的一个重要组成部分,在信息社会中占有越来越重要的位置.因其对时空数据及其属性数据较强的综合分析能
目前移动通信技术仍在不断发展,新的技术、新的设备、新的业务不断出现。电脑彩票电话交易系统是一个典型的基于移动通信技术的小额电子交易系统。目前体彩中心采用“热线系统
随着医疗信息系统的应用,特别是医院POS系统的普及,数据库中收集了大量的关于患者的基本信息、诊断信息、治疗信息还有药品信息和医务人员的信息等.这些信息对决策者做出重大
名实体最初是在MUC(Message Understanding Conference)上被提出的.根据最近的1997年名实体任务的定义,名实体识别包括三个子任务:实体名、时间表示语、数字表示语.其中实体
语音通讯是分布式虚拟环境中用户之间重要的交互方式。语音数据量大,这是所有通过网络传输语音数据的系统所必须考虑的一个问题。两点间的语音通讯,比如IP电话,可以借助语音编码
该文在全面分析移动Agent技术研究现状、研究热点和发展趋势的基础上,重点研究了移动Agent形式化建模、移动Agent规划、移动Agent通信以及移动Agent安全等问题.具体包括:(1)