基于Dimension-oriented Distance的子空间聚类及应用

来源 :兰州大学 | 被引量 : 0次 | 上传用户:dsq90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高维数据的聚类分析中,因为维数的增加,使得传统的聚类方法难以在高维数据中得到有效的应用,为解决这一问题,传统的做法是直接删除一些不太重要的变量,或者将变量做线性组合从而达到降维的目的,但由于类簇是形成于不同的子空间中,传统的降维方法可能会删除对于某一类簇来说重要的变量,从而导致丢失一部分有用的信息。因此对于高维数据聚类来说识别每个类对应的子空间具有很广泛的使用价值。本文采用基于维数距离的子空间聚类(DSC)方法不仅能够有效解决降维而不丢失信息的问题而且能够自动识别类簇个数。实现这一方法核心思想有两个:(1)基于维数的距离(dod),能够充分利用变量的个数不同和数值不同的信息,将变量数作为判断距离的一部分,充分利用高维数据中维数的信息;(2)基于方差的gap思想降维,能够自动有效的识别每一类的子空间。本文通过几组真实数据对方法进行实现,并与传统聚类方法和其他子空间聚类方法进行对比,实验结果表明本文方法处理高维数据聚类效果更为理想。
其他文献
订货会是鞋服品牌业务拓展的的主要方式。对鞋服企业来说,开展订货会,是企业最为关键的生产和销售依据;对加盟商、经销商来说,参加订货会,可以从各方位来了解产品的质量及动
在计算机科学与技术不断发展的大趋势下,计算机系统的性能始终是工业界和学术界关注的重点。目前多核处理器已经被广泛应用在不同的计算机平台上,同时也引入了其他一些新的技
随着经济的发展,人们愈发意识到生态环境对人类的重要性。黄土高原气候干旱,水土流失严重,近年来,为保持水土,打造绿水青山,实施了很多水土保持生态修复工程。在黄土高原,水是生态系统结构建成和稳定的基础,是限制生态工程有效性的关键因子。耐旱植物油用牡丹作为一种高级油用类植物,合理种植,不但可以治理黄土高原地区的水土流失,恢复生态,而且可以用牡丹籽生产食用油,保障中国的食用油安全。因此研究油用牡丹的水分来
在全球资源环境问题日益突出的时代大背景下,呼吁发展环境效益与经济效益兼顾的经济模式的声音越来越高,绿色产业恰好拥有此种特质,迎来自身发展机遇,但是却面临着资金支撑不足,难以获得融资的问题。绿色ABS作为绿色债券的一个分支,是一种较为新型的绿色产业融资渠道,它在绿色产业的融资方面具有很大的优势,并且在现有监管政策倾向于促进资产支持证券发展的环境下,绿色ABS的发展前景将十分广阔,从其引入到现在短短4
随着电改“9号文”及配套文件的相继出台,电力市场建设成为新一轮电力体制改革的重点,为了保障有效性的信息披露对电力市场的价值,需要构建规范的电力市场信息披露机制。目前我国各电力市场在电力市场信息披露方面做了诸多尝试,但仍存在一些瑕疵,有待于进一步研究。本文基于国内电力市场信息披露现状和存在的问题,提出电力市场信息披露机制的设计,旨在为电力交易市场中的各方提供可靠且相关的信息,辅助电力交易主体进行有效
本体是共享概念模型的形式化规范说明,它以机器语言可理解的形式存在。对于语义web的语义描述和二义性问题,可以通过本体较好的解决,但由于语义web的分布式特点,导致了本体的
“语文主题学习”是一种新型的语文教学方式,是以整合文章为基础,在教师教与学生学的双边过程中抓取文章最关键的核心内容,学习文章所运用的各种表达方法,体会文章的思想感情,并在总结学习后链接课外文本,进行拓展学习的新型语文学习方式。语文主题学习在推广过程中,教师驾驭新型课题的能力得到了极大提升,主题学习紧抓文章核心内容这一优势,让教师能够在较短时间内帮助学生发现文章思想感情及表达方法,并将这种方法迁移到
目前,越来越多的研究关注不确定数据集,譬如市场分析、互联网以及大型传感器网络等。同时,不确定数据集上的排序查询也受到了广泛地研究。其中,概率Top-k查询可以找到用户最
随着新一代编码技术H.265/HEVC的发展,越来越多的视频文件采用HEVC作为编码标准,并使用互联网进行传输。新一代编码技术的优良特性使得视频信息隐藏技术也越来越多的将HEVC视
物联网技术及其相关行业从诞生至今发展迅速,但在传统物联网架构中出现了一些不可忽视的问题:一是物联网应用环境日益复杂,感知层面临多类型节点接入情况;二是海量设备产生的数据量庞大,如果不加以管理,会给云端带来巨大压力。本文针对上述两个问题,设计具有数据管理能力的物联网多源感知智能接入系统。该系统聚焦于物联网架构中的前端感知层和智能网关层两部分,设计出感知节点和智能网关,这两部分相互配合实现物联网领域常