【摘 要】
:
高维数据聚类是目前数据挖掘领域研究的重点,传统聚类算法已经不适合高维数据聚类。子空间聚类方法作为高维聚类有效方法之一,已经被广泛应用到金融、电信、生物医学等领域。虽
论文部分内容阅读
高维数据聚类是目前数据挖掘领域研究的重点,传统聚类算法已经不适合高维数据聚类。子空间聚类方法作为高维聚类有效方法之一,已经被广泛应用到金融、电信、生物医学等领域。虽然学者已提出很多子空间聚类算法,但是并不能很好的解决聚类质量和时间复杂度问题。本文提出了两个算法来研究这方面问题。首先,提出了一种基于DBSCAN的属性相关子空间聚类算法(AReSUBCLU),定义了一种活跃属性来降低维度,利用活跃属性相关矩阵生成的子空间搜索树来确定子空间,提高了算法的效率。算法利用了统计学中的均方差性质,如果均方差非常小,那么数据将呈均匀分布。算法通过均方差确定活跃属性后,利用本文定义的阈值加权技术,调用DBSCAN算法在每个活跃属性产生一维簇。然后根据属性相关性建立活跃属性的相关矩阵,来衡量属性之间的关系。利用矩阵生成子空间搜索树,根的每个分支上节点组成的集合即为要寻找的兴趣度子空间。最后利用簇相似度来合并每个维度的簇,进而得到所需的子空间簇。然后,提出了基于DBSCAN的空间树聚类算法(SpaceTreeCluster)。该算法利用DBSCAN生成一维簇,采用维度熵选择合适的分裂属性,把数据集从该属性上分裂成较小的数据集,然后递归调用算法来建造空间树,直到算法满足终止条件为止。该算法通过设计的空间树结构来得到子空间簇。空间数的每个分支节点的集合组成的属性空间就是本算法找到的兴趣度子空间,分支上的叶子节点所包含的数据对象就是该子空间的簇。该算法使得时间消耗大大减少。最后,运用java语言编程实现算法,应用人工数据集和真实数据集对实验进行验证,实验结果展示了算法的良好性能。
其他文献
随着新媒体技术的不断发展,以微博、微信、博客、SNS为代表的自媒体迅猛发展,打破了传统的传播模式,“人人都有麦克风”的时代已经到来,公众不再仅仅是信息的被动接受者,也逐渐转
二极管泵浦的第二代固体激光器在能量转换率、稳定性、使用寿命、体积以及光束质量等方面均有明显优势,并已经在通信、医疗、科研、材料加工等行业得到了广泛应用与好评,市场前
内皮细胞受损是糖尿病引发血管并发症的主要因素,其主要表现特征为:NO的降低及过氧化物的相应增加。四氢生物蝶呤作为内皮型一氧化氮合酶(e NOS)活性的关键辅助因子,在调控NO合
提出了一种适合于公网集群系统的小区切换算法.在公网集群系统中,多个群组用户同时进行越区切换,可能造成信令风暴,导致更高的切换时延,降低了小区切换成功率.通过引入桥梁群
高速公路跨越构造物路段存在软土时,由于该路段软土由于具有压缩性高、渗透性差,潜在的工后沉降危害大,承载能力低的特性,因此,从公路性能对地基的要求出发,软土地基需要进行加固处
利益问题是区域合作的核心问题,利益博弈贯穿区域合作的始终。2004年"中部崛起"战略的提出,表明我国区域经济发展由不均衡战略进入全面区域协调发展阶段。但"中部战略"实施6年来,
河道内生态需水是水资源开发利用和维持生态系统平衡需要考虑的基本问题。为改善城市河湖水环境、恢复水生态系统,以深圳市布吉河流域龙岗段河道作为研究区,进行河道内生态需
为加强对新疆某区域矿产资源开发过程中的辐射安全监管,通过对该区域52家矿产资源开发企业的γ辐射剂量率进行监测,对超出“当地本底水平+50nGy/h”的2家企业进行了采样,调查
某铅锌硫化矿原矿锌品位为1.41%,铅品位为0.22%,方解石含量达90%以上,在碎磨过程中易过磨形成次生矿泥,对铅锌浮选产生不利影响,浮选试验研究结果表明,组合捕收剂提高了铅的
目的了解广东省大众结核病防治知识知晓率情况,为有效开展结核病健康促进工作提供科学依据。方法采用分层整群等比例随机抽样方法,全省共抽取49 514名调查对象,采用结核病防