水文学中的模糊聚类问题的讨论与研究

来源 :科技与企业 | 被引量 : 0次 | 上传用户:wjz5201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】对模糊聚类分析的产生,发展概况进行说明,简要介绍了进行模糊聚类分析的一般方法,以及目标函数法的基本过程,同时也对水文学中模糊聚类研究可能遇到的问题进行探讨。
  【关键词】水文学;模糊聚类;目标函数
  一、引言及基本理论
  水文学以研究地球上水体的起源、分布以及其循环运动变化规律等为基本内容的一门学科;在整个水文系统中,其输入一般有降水,污染物等等,流域或区域作为一个整体的演变系统,流域或区域出口的径流,污物扩散等作为输出。从整个水文系统来看,它是一个开放的巨大的复杂的系统,而且由于整个系统的运动规律影响因素多,而且其物理机理也非常复杂,导致整个水文系统具有不确定的特性。而水文系统中存在的种种不确定性主要表现在随机性、模糊性等方面。
  在多元统计分析当中,聚类分析是其中的一个分支;它就是对一个没有在类别上进行标记区分的集合或者是样本,将它划分成为按照所选的某种规则进行标记区分的若干个子集或者类,尽量使样本或者集合中相似的元素或子集划分到同一类别当中,而尽可能的将其中不相似的元素或子集划分到不同的类别中。但是,伴随着社会的进步发展,人类的认知领域也在不断的拓展,其中,人们发现在现实世界中并不存在非常严格的界限来区分很多的事物或现象,他们在性态和类属方面存在着某种统一性或者说中介性,他们不是简单的“非此即彼”的关系,而是带有“亦此亦彼”的性质,我们将这种情况下的分类称为软分类,在这种情况下,简单的聚类分析已不能满足人们的需求。
  1965年Zadeh[1]针对事物广泛存在的模糊性提出了模糊集合理论(Fuzzy Set Theory),人们开始尝试用这种方法来处理聚类问题,而且取得了较大的成功,并将这种用模糊集合理论处理聚类问题的方法称为模糊聚类分析。
  通过对样本或集合的模糊聚类分析,不仅可以得到各样本或子集分别从属于各个类别的隶属度,又能够得到各个样本类属之间所具有的中介性。通过模糊聚类分析,得到了样本在不同类别中的不确定性描述,所得到的结论也更能够对现实世界进行客观的反映。所以模糊聚类分析成为了聚类分析研究的主流,也成为了近年来不断发展的一个研究热点[2]。而模糊聚类分析也为了对水文学中的不确定问题进行处理的重要的工具。
  二、发展概况
  自从1965年Zadeh提出模糊集合理论以来,该理论得到了长足的发展,而且理论的本身的内容也得到充实和完善;而模糊聚类分析作为模糊集合理论在应用实践方面的重要领域之一,也在基础理论研究上获得了很大的进展,并且在实际工程的应用过程中取得了很好的成绩。而且模糊c均值法作为模糊聚类分析中的一种算法,由于其本身强大的实用性和理解上的通俗易懂性,使得模糊c均值法得到广泛应用,并迅速成为了对聚类问题进行研究的重要方向。下面对模糊c均值聚类的理论与算法的进展作简要的概括[3]:
  (1)算法收敛性的改进:由Cannon在1986年提出的近似模糊c均值聚类法即AFCM法,使得模糊c均值算法的收敛速度得到了大大提高。
  (2)目标函数的修改:Trauwaert等人在1991年,根据最大相关性的原则,将模糊聚类算法中的目标函数进行了修改。
  (3)目标函数在距离公式方面的改进:距离公式的改进能够使得算法聚类的数据类型的范围扩大。基于目标函数的聚类算法中,大部分情况下都会采用欧氏距离。而Gusatafson[4]在1978年,将协方差引入到了目标函数的距离公式的表达式中,提出了基于协方差的模糊聚类算法,从而使得在进行模糊聚类分析时,数据聚类的效果得到明显提高。
  三、方法分类
  从方法的实现上来看,进行聚类分析的方法一般可分为以下几种类型[5]:基于谱系的聚类方法、基于等价关系的聚类方法、基于图论的聚类方法和基于目标函数的聚类方法。聚类方法可认为是将包含在样本集中的所有可能划分成为子集的并将子集按某种规则进行分类的处理数据的方法。如要得到理想的聚类结果,必须在采用聚类方法和选取聚类准则的时候进行谨慎的比选论证。但是,由于上述的前三种方法不适用于处理数据量比较大的情况,并且它们在实时性要求较高的场合不能满足使用要求,因此在进行实际问题分析的时候应用不是很广泛,目前,有关这三种聚类方法的研究已经逐渐减少了。而基于目标函数的聚类法则是将问题归结为一个非线性规划的问题,并且带有约束条件,通过采用以优化进行求解的方式获得样本数据集的最优模糊划分和聚类。这种聚类分析的方法在设计过程方面操作比较简单,而且所能解决的问题的范围方面也更加广泛,还可以将所处理的问题转化为有关优化的问题从而借助数学的非线性规划的理论进行求解。由于算法可以运用计算机将整个求解过程实现,所以这种方法的实用性很强。
  数据聚类分析一般包括四个过程:(l)模式表示;(2)模式相似性的定义;(3)聚类算法的设计;(4)聚类有效性评价。
  四、问题与结论
  在有关模糊聚类分析的问题中,由于需要聚类的对象的多样性,即遇到的水文的问题的多样性,使得需要用到的模糊聚类的算法也具有多样性。在聚类分析中一般需要解决以下几个问题:
  (1)聚类样本集的多样性。由于实际问题中的样本的类型具有多样性,如样本的球形分布、线性分布、椭球形分布、等等,所以其聚类的方法也具有多样性,需要针对具体的问题采用相应的聚类算法。
  (2)聚类分析时确定聚类类别个数。就是将所给的样本集划分为多少个类别更加科学,更加合理。
  (3)表征樣本特征的数据,在进行聚类分析时大部分数据处理方法都是基于欧氏距离的,故只能处理一些具有数值属性的数据或已经数值化的样本,对于一些符号属性或者很还没有数值化的信息就很难计算。
  (4)提取样本特征。聚类时需要根据样本元素(子集)的影响特征来进行划分,有时找到这些能够有效区分类别的有效特征是困难的,而且有时就算找到了特征,但是却很难用数据将其表达出来等。
  (5)当聚类样本输入顺序不同时会对聚类算法产生影响。也就是说即使聚类的样本相同,当样本的输入顺序不同时,所得到的聚类结果也会不同。
  参考文献
  [1]L.A.Zadeh.Fuzzy Sets.Information and Control[J],1965,338-353.
  [2]何青.模糊聚类分析理论与应用研究进展[J].模糊系统与数学,1998,12(2):89-94.
  [3]高新波.模糊聚类分析及其应用[M].西安电子科技大学出社,2004.
  [4]甄文智,抑制式模糊聚类算法及其应用[D],西安电子科技大学硕十学位论文,2003,01,P2-4,35-41.
  [5]胡宝清.模糊理论基础[M].武汉大学出版,2004,271-279.
  作者简介
  李晓伟,(1991-)男,河北省石家庄市人,重庆交通大学河海学院,在读硕士研究生.研究方向:港口海岸及近海工程.
其他文献
中国西部,北起阴山、大青山,南抵秦岭,西至贺兰山、六盘山,东达吕梁山、太行山,总面积37万平方公里,横跨陕、甘、宁、蒙、晋五省(区),是我国第二大沉积盆地——鄂尔多 斯盆地,也称陕甘宁盆地。这里蕴藏着丰富的石油、天然气资源,勘探开发潜力巨大,是我国油气资源的重要战略接替区。而陕甘宁盆地是长庆油田的主战场,油气勘探开发和生产建设更呈现出大场面、大规模,物资需求和保障任务十分繁重。 2012 年物资吞
一、建筑工程主材的概念及主材费的计算  在我国的工程量清单预决算中,建筑工程预决算有大量的未定价或暂定价材料(即主材),而这部分材料的总价格往往占到整个工程费用的50%以上。对于很多造价人员来说,在该部分费用的取定上,理解各不相同,从而造成较大的价格差异,而该部分主材费用的取定往往直接关系到建筑工程预决算的准确与否。  1.建筑工程中主材的概念。建筑工程主材是指安装工程中构成分项工程的主要实体材料
本刊讯河北钢铁集团与南非工业发展公司、中非发展基金3家公司在北京正式签署《河北钢铁集团南非钢铁项目合作谅解备忘录》,标志着河北钢铁集团500万吨南非钢铁项目建设在该集
本刊讯从中国商飞公司获悉:国产ARJ21—700新支线飞机104架机在北美圆满完成自然结冰试验试飞后,今天安全返回西安阎良中航工业试飞中心。这是中国首款自主研制的涡扇喷气支线
一、前言  作者在二期发电机组失磁保护校验时,发现失磁保护下抛边界阻抗圆总是抢先失磁异步边界阻抗圆出口,造成异步阻抗圆保护失去作用,鉴于发电机失磁对发电机及系统的危害,由此引出失磁保护分析应用事宜。  二、发电机失磁危害  发电机失磁后,发电机转子和定子磁场间出现了速度差,则在转子回路中感应出差频电流,引起转子局部过热,甚至灼伤,同时发电机受交变异步电磁力矩冲击而发生振动,尤其在重负荷下失磁将发生
历史数据分析表明,市场需求和订单变化是决定未来经济走势的关键因素。从2012年四季度的数据看,预计2013年我国经济可以实现平稳开局。2012年第四季度我国GDP增长率达到7.9%,较三季度提高0.5个百分点,全年GDP增长率达到7.8%,略高于年初7.5%预期的目标。稳增长政策的预期目标较好实现。  从最新数据看,第一,投资增长稳中略升。1—5月份固定资产投资(不包括农户)同比增长20.1%,1
在陕西省第十二届人大代表会上,法士特公司生产一线工人曹晶高票当选第十二届全国人大代表,是陕西省省属企业唯一一名工人代表。曹晶1974年9月出生于陕西陇县,1993年8月技校毕业
随着我国经济社会的快速发展,社会生产生活对供电系统的安全、稳定、可靠提出了更高的要求,而继电保护系统作为供电系统的重要组成部分,其运行的安全、可靠、稳定与否直接关系到
始建1970年的长庆油田,针对世界上罕见的“低渗、低压、低丰度”的“三低”油气藏构造,不断进行艰苦探索,创下了一连串奇迹:20世纪80年代原油产量上升到百万吨,90年代达到500万吨以上;2003年油气产量达到1000万吨;2009年实现了3000万吨;2011年实现了4000万吨;2012年实现了4500万吨;2013年已经踏上了实现油气产量5000万吨的步子。长庆油田以技术创新撬开了低渗透油层
随着国家电网的改造和升级,对提升电力系统的可靠性运行有着积极的影响。但由于种种因素的影响使得配电线路出现不同程度的故障问题,造成电力系统运行可靠性失稳。为此,笔者结合当前我国配电线路发展现状,对电力配电线路故障原因进行了浅析,提出了有效解决故障问题的措施。以期能够对实现我国电力系统安全可靠性运行,更好地服务社会经济建设和人民大众生活贡献绵薄之力。  目前,我国已进入社会主义经济建设的快速发展阶段,