高维分类型数据子空间聚类算法研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:honghuishupian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大规模数据存储技术、信息技术和网络技术的发展,人们正陷入数据泛滥、知识贫乏的境地。为满足日益增长的信息需求,聚类分析作为一种主要的数据挖掘技术已经应用到各种领域之中。现有的算法大多是处理低维的数据,其中不乏各种优秀的聚类算法,并且已经得到很好的应用。然而现有的技术虽然已经成功的解决了较低维数据的聚类问题,但是对高维数据,特别是高维分类型数据,由于其分布特性与低维情况相比有很大的差异,以及分类型数据的特殊性,使得现有聚类算法无法满足处理高维分类型数据的要求。  为解决高维分类型数据聚类问题,本文提出了一种基于信息熵和粗糙集的高维分类型数据子空间聚类算法(ERSC:An algorithm based on entropy and rough set for high dimensional categorical clustering),采用基于信息熵的特征选取实现了高维空间的有效降维,从而显著的提高了聚类效率,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想。最后通过了人工数据和真实数据soybean、zoo和mushroom数据集上的实验,得到了很好的实验结果。结果表明了本文算法不仅可行,而且精度高。
其他文献
随着人们对信息安全和可靠性要求的日益提高,身份识别成为信息安全领域中一个很重要的研究课题。然而,传统的证件、口令、密码等身份识别的技术存在易被复制、窃取、遗忘等缺陷
蛋白质相互作用热点预测是功能蛋白质组学中主要研究内容之一。Clackson观察hGH与hGHbp结合时发现极少数残基释放大量的能量,由此引起研究者兴趣。之后研究者将这些极少数的发
如今,数据量的快速增长带领我们进入了大数据时代。同时,大数据类型多样,如社交数据、企业数据、传感器数据及机器生成数据等。因此,我们迫切地需要快速及有效的数据挖掘方法来利
复杂目标的电磁散射和辐射特性的计算仿真具有很高的应用价值。在电磁计算的工程应用中,这些目标的模型网格质量对于电磁计算而言非常重要,决定着相应电磁计算算法的适应性、
随着车联网的发展,车辆定位技术的研究受到了大量国内外研究人员的关注。定位技术不仅影响到行驶车辆的安全,对车联网的发展也起着决定性作用。目前大部分车辆定位方案是在全球
非线性系统回归分析中的参数估计,是指在实际问题中非线性系统的形式己知,但其中参数未知,即已知随机变量的一组样本值,希望通过样本值来估计变量分布中的参数值。生长模型是
随着数据的爆炸性增长,数据库领域的研究热点逐渐从事务型数据库转移到海量数据分析型数据库。数据仓库作为当今热门的数据分析技术,为企业决策提供有力支持的同时,也越来越
随着网民数量急剧增长,中国网民的购物比例也在持续快速上升。C2C电子商务技术发展迅速,但由于其自身拓扑结构的开放性、动态性以及不确定性等特点,使其交易的安全问题也变得
分布式应用系统凭借其良好的性能在现实生活中得到了广泛的应用,但是随着其规模的不断扩大,超大规模的数据存储处理成为了难题。并且,通信规约的繁杂不规范也导致协议和设备的不
小肠作为人体最长的消化道器官,位于人的腹腔内部,其检查和诊断都很困难。良好的小肠检查方法能积极的辅助医生进行诊断和治疗小肠疾病,同时也能减轻医生负担、减少病人的痛