基于有效维选择的子空间聚类算法研究

被引量 : 0次 | 上传用户:liuyongqing0820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域中,子空间聚类是一个重要的研究方向,它在众多领域有着广泛的应用。传统的聚类算法直接在原始数据空间进行聚类,但是由于原始空间数据的稀疏性,直接进行聚类不能获得理想的聚类结果。针对上述问题,本文重点研究基于有效空间寻找的子空间聚类算法和基于临界网格检测的数据流子空间聚类算法。首先,分析了子空间聚类算法的要求,接下来分析了数据降维的方法,最后分析了经典的子空间聚类算法,包括自顶向下的聚类方法和自底向上的聚类方法,并指出算法的优缺点。其次,针对基于网格的算法在识别簇的过程中,把簇的边界网格当作稀疏网格舍弃的问题,提出了基于有效空间寻找的子空间聚类算法。算法首先根据相对熵来得到有效维;然后采用自底向上的方法来寻找有效空间,在这个过程中除了使用簇标准的单调性剪枝以外,还使用了基于无向连通图的剪枝方法;最后在有效空间上使用基于密度的聚类算法来识别簇。再次,针对网格划分不当导致多个簇被误识别为一个簇的问题,提出基于临界网格检测的数据流子空间聚类算法。算法由在线阶段和离线阶段组成。在线阶段,算法首先根据相对熵得到有效维;然后根据有效维之间的相关性和位向量来生成子空间;最后将数据投影到网格并更新网格特征向量。离线阶段,当有聚类请求的时候,自适应地计算网格密集阈值,并通过计算中心度和吸引度来对临界网格进行识别,生成聚类结果。最后,对本文提出的算法采用java语言编程实现,采用真实数据集和合成数据集对算法的聚类质量和可伸缩性进行验证,并对实验结果进行了分析和比较。
其他文献
2012年8月31日上午,十一届全国人大常委会第二十八次会议对《中华人民共和国民事诉讼法修正案(草案)》进行了表决,最终以140票通过,此次《中化人民共和国民事诉讼法》(以下称最新修
文章选取台湾职业教育的教育理念、和谐的育人环境、务实的人才培养之道、基于职场工作及职业技术教育所需的课程体系等五个角度对台湾职业教育进行了研究,并在教育理念、教
车间设备布局是企业生产规划的关键问题,如何设计出一个好的设备布局,使之既满足车间环境的约束又使物流成本最小,这不仅是企业关心的核心问题,也是国内外学者研究的热门课题。论
“春种一粒粟,秋收万颗子”。种子质量决定农业生产的成败,同时也涉及千家万户广大农民的切身利益。我国是第二玉米种植大国,玉米种植面积和产量仅次于美国。在广西,玉米是仅
<正>2001年7月《全日制义务教育语文课程标准(实验稿)》颁布,2002年4月《全日制普通高级中学语文教学大纲》制定,2003年又修订为《普通高中语文课程标准》,新课标开宗明义,
哈佛大学肯尼迪政府学院的公共管理教育,在组织使命与培养目标、招生政策与应业服务、教师队伍与行政人员构成、课程设置与教学活动等方面,均有可资借鉴的地方。其管理经验可
目的讨论消毒供应中心中实施护理质量控制对降低院内感染的影响。方法选取10例我院在消毒供应中心消毒物品的护理人员,在2016年2月至2017年2月为对照组,使用常规护理管理。在
人在接受教育之前是无知的,需要接受教育以获得知识而变成有知,还要接受教育以扬弃知识而复归于无知。获得知识之前的无知,是原始的无知,是自然的产物。扬弃知识之后的无知,
随着全球能源和环境问题的日益突出,风能的开发和利用已经受到越来越多的关注。然而,风是一种不稳定、易变的能源,风电场大规模接入必然会对电力系统产生与常规能源不同的可靠性
<正>[教学目标]1.体味诗人深广的忧思,领悟诗歌的思想价值。2.了解杜甫七律诗的艺术成就,感受诗人沉郁顿挫的艺术风格。3.掌握诗歌鉴赏的基本方法。