基于模糊特征选择的聚类算法改进以及应用

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:heermeisi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘领域的重要技术之一,聚类分析技术将数据区分为自然的群体,用于发现未知领域的分类。聚类分析已经有了很长的研究历史,其重要程度越来越受到人们的重视。聚类分析在统计学、生物学、地质地理学以及客户管理等领域中有着广泛的应用。通常的聚类算法主要有基于划分的、基于层次、基于密度的、基于网格的等等,比较常见的聚类算法有K-means算法、STING算法、CLIQUE算法和CURE算法等。 对于聚类算法的研究近年来主要在于新聚类算法的发明或者对原有的聚类算法的改进。目前已有的改进策略都是针对单个算法本身进行创新,突破其在某一方面的局限性而实现对单个聚类算法的改进。当前数据挖掘所面临的一大挑战是:面对海量的、高维度、包含冗余或者不相关特征的数据集,很多算法的有效性往往会降低,如何克服这些噪音特征的干扰是需要解决的一大问题。而目前的改进策略均是针对单个算法进行改进,只能解决一部分问题,没有一个通用的策略实现对聚类的改进,以处理海量的、高维度或者包含冗余和不相关特征的数据集。本文对此进行了一定的研究,希望提出一个通用的策略解决上述问题,希望剔除或者削弱这些影响,实现对聚类算法的改进。 聚类算法本身在处理数据集时无差异地对待各个特征,认为它们对聚类的贡献程度一致,在处理高维度数据时,这样的策略更会暴露出不足,高维数据中存在大量的冗余和不相关特征,它们会增加算法运行的时间,干扰聚类结果,降低聚类算法的有效性。如果能够发现各个特征对聚类的贡献程度,并且量化各个特征对聚类作用,将量化值作为特征的权重,实现对高维数据的模糊特征选择,那么一方面可以约简维度空间,提高数据的可理解性,另一方面可以提高算法的效率和有效性,达到改进聚类算法的目的。 本文基于一个ULAC(Liu,etc2006)框架实现特征选择,改进聚类算法。首先通过对原始数据集进行聚类,获得各个样本的类标签,将无指导的数据挖掘环境转换为有指导的数据挖掘环境;其次在此基础上进行特征重要性程度分析,计算各个特征重要性程度的度量(Feature Important Factor),通过FeatureImportant Factor实现对数据空间约简,降低数据集的维度,剔除和降低冗余和不相关的特征以实现对聚类算法的改进;最后通过模糊特征加权修改聚类算法,实现对聚类算法的改进。本文基于特征熵值的理论,建立熵值模型计算各个特征的重要性程度度量,在算法运算过程中考虑FIF权重,修正各个特征对聚类结果的影响,改进聚类结果。 本文选取了K-means算法作为模型的验证算法和UCI数据集中的普通数值型数据对本文提出的改进策略进行研究,从SSE变化的角度以及对人为添加的噪音特征的剔除情况进行分析。实验表明,模型挑选出了重要的特征,剔除了人为添加的噪音特征,约简了数据集空间,提高了算法的效率,证明了模糊特征选择对聚类算法改进的有效性。
其他文献
信用风险是银行业风险中最主要的风险。识别、测度、控制与管理信用风险便成为风险管理研究的重要内容。在我国的金融体系中,城市商业银行所面对的信用风险管理有其特殊性。
江苏省委宣传部召开全省报纸工作座谈会,讨论新闻宣传工作怎样适应新形势,服务于总目标,努力开创新局面。 The Propaganda Department of Jiangsu Provincial Party Commit
本文对中国金属铜期货市场的价格发现功能、波动性特征以及套期保值策略进行了深入地研究。首先,使用马尔科夫机制转换误差修正模型(MS-VECM)刻画了期、现货价格之间的长期趋
三月十六日,《新华日报》头版发表了长篇通讯《永远和祖国一道爬坡——记自愿赴藏的南大地质系毕业研究生夏斌》,读后深为夏斌那种强烈的事业心和使命感、崇高的精神和品格
Wave energy resources are abundant in both offshore and nearshore areas of the China’s seas. A reliable assessment of the wave energy resources must be perform
期刊
本文以中国移动广东深圳分公司(以下简称深圳移动)建设和应用渠道体系的实践为基础,结合渠道研究的相关理论,系统阐述了渠道从规划、建设、运营管理到优化协同的全过程,创新性地提
在春小麦杂交育种工作中,对于选择适宜的杂交亲本及早期判断杂交组合的优劣,以便及早淘汰不良组合,集中精力研究有希望的杂交组合,是长期以来育种工作者迫切希望解决的问题
浙江省兰溪市游埠镇农垦场是1977年新开发的红黄壤土丘陵地,1988年试种低酚棉2049品系12亩,平均亩产皮棉124.5公斤。主要栽培技术如下。1、营养钵育苗移栽。针对土质差,棉花
71团场五连,近四年来小麦连续高产稳产。1981年4,687亩冬小麦,总产达2,832,806斤,平均亩产604.4斤,再次创历史最高纪录。与1980年相比,单产净增102.49斤,增产20.42%,获纯利润
1980年我们在三星他拉大队一队,搞了10亩马铃薯整薯栽培试验,虽是五灾俱全之年,仍获得了可喜的成果,收获薯块40,140斤,平均亩产4,460斤,比对照(亩产2,940斤)多收1,520斤,约