基于自然计算的模糊聚类新算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:JERONG971
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是近年来国际上在信息决策领域最前沿和最活跃的研究方向之一。作为数据挖掘的一种强有力的分析工具,聚类分析得到了人们的广泛关注。聚类分析是多元统计分析的方法之一,也是统计模式识别中非监督模式分类的一个重要分支,近二十年来得到了迅猛的发展,有许多聚类分析新算法不断被提出。 自然计算是目前新兴的一类计算方法,它以自然界,特别是生物体的功能、特点和作用机理为基础设计出的计算模型。它具有自适应、自组织、自学习等能力,能够解决传统计算方法难于解决的许多复杂问题,因而近年来成为研究的热点,并在诸多领域中得到了广泛的应用。 针对现有聚类分析算法在数据挖掘应用中存在的不完善甚至严重不足之处,本文结合自然计算方法,对传统模糊聚类算法进行较为系统的改造和革新,主要探讨了有关具有混和属性特征数据的聚类算法目标函数的定义以及优化方法,提出了适合大数据集的网络结构聚类新算法,扩展了聚类分析的应用范围,并构造了适合于数据挖掘的新的聚类有效性函数。实验结果表明,本文提出的一系列有关模糊聚类分析的新思想和新方法都取得了良好的效果。 归纳起来,本文的研究成果主要表现在以下几个方面: 1.定义了一个新的相异性匹配测度,修正了传统聚类算法的目标函数——类散布矩阵的迹,将数据集中不同属性特征相结合,构成新的聚类目标函数,使得其能够适合混合类属特征的数据,并利用遗传算法对其进行优化,克服传统的模糊κ-均值(FKM)算法对原型初始化敏感的缺点,使得算法能够以较高的概率收敛到全局最优解。 2.利用人工免疫系统中著名的克隆选择算法改进遗传算法,避免了遗传算法中可能出现的早熟现象,同时由于基于克隆算子的克隆选择算法是群体搜索策略,本质上固有并行性和搜索变化的随机性,在搜索中不易陷入局部极值,最终能以概率1获得问题的全局最优解,而且收敛速度比遗传算法更快,因此更加适合大数据集的聚类分析。 3.结合人工免疫系统中免疫网络理论,提出用免疫网络来进行聚类分析,由于所获得的网络神经元代表了数据子集中的典型样本,因而可以用来产生相应的数据子集;通过最小生成树对获得的网络神经元的连接权进行分析,最终自动解决了FKM类型算法需要事先输入类别数以及聚类原型必须一致的难题。 4.借鉴生物免疫系统的免疫应答中禁忌克隆的现象,提出禁忌克隆算法,并与克隆选择算法相结合,形成基于克隆算法的网络结构聚类分析新算法。由于新算法将克隆选择与禁忌克隆相结合,使得到的网络即具有免疫的特异性又具有免疫耐受性,因此具有有效的清晰网络结构,从而使网络结构聚类算法对数据集边界点以及噪声点不再敏感。 5.利用免疫系统中有限资源理论,设计了一种模糊识别球,使其作用范围随刺激水平的变化而变化,通过对B细胞的竞争,将刺激水平低的识别球清除,使网络对模糊边界点不敏感,从而能够代表各类的典型样本,使得到的网络具有清晰的结构,同时大大提高运算效率,解决了网络规模随迭代次数以及运行时间随数据量呈指数增长这一难题,使基于网络结构的聚类算法更适合大数据集聚类分析。 6.由于对聚类分析而言,聚类有效性问题经常可以转化为最佳类别数k的自动确定。所以我们提出划分模糊度这一新概念,同时兼顾数据集的模糊划分信息和几何结构信息,将模糊划分嫡与划分模糊度相结合,定义了一种修正的划分模糊度作为聚类有效性函数。这种新的聚类有效性函数不仅能够有效地分析数值型数据分类结果的合理性,而且对类属型数据也是有效的。并基于此,提出两种分别适合于数值型数据和类属型数据的参数优选方法。 本文的工作受到国家自然科学基金和国家“863”计划的资助。关键词:数据挖掘,模糊聚类分析,自然计算,数值特征,类属特征,克隆选择, 禁忌克隆,模糊识别球,聚类有效性
其他文献
日前,工程起重机公司轮胎起重机制造分公司的RT75、RT35越野轮胎起重机先后收到TUV ANSI(北美认证)证书,拿到了北美市场通行证。
[摘 要] 本文介绍了基于Internet的一个B2C电子商务网站的设计思路。  [关键词] Internet ASP 电子商务 数据库 购物网站    一、引言  电子商务网站是企业开展电子商务的基础设施和信息平台,是实施电子商务的公司或商家与服务之间的交互界面,是电子商务运转的承担者和表现者。电子商务网站是以实现企业的业务功能为主要目的,设计与实现既定的业务功能是成功构建电子商务网站的关键所在
在聚乙烯醇存在下的pH6.6磷酸氢二钠--柠檬酸钠缓冲溶液中,碳量子点与曙红Y(EY)的荧光共振能量转移,使EY的荧光增强。在该体系中,碳量子点作为能量供体,EY作为能量受体。当加入Au^3+
米老排(Mytilaga laosensis Lecomte)属金缕梅科(Hamamelidaceae)壳菜果属(Mytilaria)常绿阔叶乔木,天然分布于我国广东、广西、云南及东南亚等地,是一种优良速生用材树种。文章综述
随着科技的飞速发展,机器视觉相关应用在国民生活中扮演越来越多、越来越重要的角色,例如安防监控、机器人导航、三维数字虚拟现实等。人们对机器视觉的要求也越来越高,现阶
目的:了解门诊儿童体内钙、铁、锌、铜元素的含量,以指导营养及保健。方法:用原子吸收光谱仪,对368名儿童末梢血选择性做钙、铁、锌、铜检测。结果:儿童微量元素失衡情况以缺锌
[摘要] 价格指数编算涉及大量的数据处理问题。本文对现有对外贸易价格指数编算中的数据处理方法做了全面回顾和评述,进而提出建立在HS的6位目基础上的数据处理思路。特别的,对于因存在问题使指数公式应用受限的数据,作者针对其出现的不同原因提出了相应的处理建议。  [关键词] 对外贸易价格指数 价格指数编算 数据处理    对外贸易价格指数是研究贸易问题和进行定量分析的基础。指数编算过程中面临大量的数据处
在科学技术研究中,很多计算问题都可以归结为具有非线性和多峰特性目标函数的全局优化问题,高效求得此类问题的全局最优解一直是优化计算领域的研究方向。粒子群优化(Particle
日前.四川省集中开工建设乐(山)雅(安)、巴(中)达(州)、巴(中)陕(西)、丽(江)攀(枝花)、成(都)德(阳)南(部)5条高速公路。总投资约488亿元,总里程达580多km。至此,2009年四川省开工建设的高速公路将达
采用三维影片解析法,分析了许钢跳马“踺子转体180°前手翻”类动作上极踏跳技术。结果表明:许钢在侧手翻推离地面时已开始了“纵转180°向外转体”,至着板、蹬离时已完成了较大