面向高维数据的子空间聚类算法研究

被引量 : 0次 | 上传用户:caomao8000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘的重要研究内容,其中对大规模、高维数据库的聚类分析是研究的热点和难点问题。由于高维数据的稀疏性、空空间现象及维数灾难的影响,高维数据不可能在全维空间密集,于是传统聚类方法不能获得理想效果。针对高维数据聚类方法存在的问题,本文的主要工作如下:分析了传统聚类算法在处理大规模、高维数据集时遇到的困难和问题。比较了各种降维处理方法的优劣,从原理上论证了子空间聚类算法处理大规模、高维数据集的优势。在此基础上,进一步对已有子空间聚类算法进行分析,基于Aporiori算法思想的子空间聚类算法在应用中存在一些问题:首先在确定簇的相关维时需要多遍扫描数据库,降低了聚类的时间效率;其次,这些算法都只能对单一数据类型进行处理。关联规则挖掘中频繁模式的发现与簇相关维的确定具有很大的相似性。因此本文提出了一种基于模式树的子空间聚类算法PSC,仅需扫描数据库一遍,大大提高了子空间聚类算法的效率。同时通过扩展簇的定义,将对符号型和数值型数据的聚类整合到一个统一的框架中。目前大多数聚类算法都是用对象在属性集上的距离来衡量对象相似度。然而距离函数并不总能有效的发现对象之间的联系。事实上距离很远但属性值具有相似变化模式的对象也可能属于一类。基于模式相似度的聚类算法是子空间聚类算法的一种,它能有效发现这一类的簇。但是已有的方法在高维大规模数据库中效率不高,并且对聚类所得的簇质量没有评价。为此本文提出了一个新的算法,该方法应用新的簇质量评价标准来挖掘最优的簇,从而聚类的结果更加有意义,同时应用基于模式树发现簇的相关维方法也有效地提高了算法效率。
其他文献
手风琴室内乐是手风琴演奏形式之一,最早出现在十九世纪末的欧洲。20世纪九十年代,手风琴室内乐步入我国,这一充满生机的新兴演奏形式,在我国扎根并逐渐得以发展。它的出现,
长期以来,我国大学英语评价都依赖于终结性评价方式,即以考试成绩来评定学生的学习能力和教学质量,片面地用分数来评价教学质量,形成了对英语教学的负导向和负激励机制。这种评价
当前,我国正在进行新一轮的基础教育课程改革,课程标准和教材改革是基础教育改革的核心内容。本研究主要采用文献研究法、问卷调查法和比较研究法对五个版本高中生物教材的知识
社区参与是社区建设和发展的重要内容。本文以南京市鼓楼区、玄武区等为研究对象,探讨依托城市社区参与体制和机制的创新实践。文章共分为五个部分:第一部分对研究的缘起、选题
近年来,随着人们环保意识的日益增强,国内外专家学者对煤矸石综合利用的技术研究十分重视,其中将煤矸石用作路基填料,是研究热点课题之一。本文通过室内试验对淮南煤矸石的压碎值
阅读是一项极有价值的技能。无论在理论上还是在实践中,阅读一直是语言教育工作者关注的焦点。但在高职英语教学中,阅读教学模式和教学方法陈旧、忽视阅读策略的培养,片面强调听
自从80年代中期非非主义、莽汉主义和王朔主义把反讽弄进文学之后,这种意识形态修辞就侵入到了文学、美术、戏剧、音乐和学术等各个领域,而它近年来对现代都市建筑的入侵,则
在新课程不断向深层推进,人民群众对教育提出更高要求的时候,我们教育工作者也在不断思考,到底什么样的教学才能有效提高学生的科学文化素质。把人类数千年来在对未知世界探索中
车牌识别是智能交通系统中非常重要的基础功能,应用广泛。目前标准场景下的车牌识别算法相对已经比较成熟,市场上主流的车牌识别系统在标准场景下的识别率都很不错。但是在很多应用场景下,比如停车场出入口,车辆行驶方向不一,导致车牌在图像中会出现大角度的倾斜。大角度的倾斜对车牌检测有较大影响,会造成车牌的漏检,同时也会造成字符粘连和字符挤压变形,降低车牌字符的识别正确率。针对以上问题,本文对大角度倾斜车牌的检
基底动脉尖综合征(TOBS)是基底动脉顶端及其分支血液循环障碍引发多处脑组织缺血性损伤的一组症候群,主要累及基底动脉尖周围2 cm内的5条血管,即双侧大脑后动脉、双侧小脑上动