基于核密度估计的区间型数据聚类方法

来源 :山西大学学报(自然科学版) | 被引量 : 0次 | 上传用户:ccyyttaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类作为区间型数据挖掘的重要任务之一,在度量对象之间的相似度或距离方面面临着极大的困难.传统聚类方法扩展到区间型数据后,在度量对象之间的距离时往往只考虑到了区间型数据的边界,而忽略了区间型数据内部的信息.文章引入区间型数据的概率分布,希望通过相关的区间型数据来估计每一簇的概率密度函数.提出了一种新的基于区间型数据的核密度估计方法,然后利用新方法估计出的概率密度函数重新定义了对象之间的距离,最后提出了一种自适应的区间型数据聚类方法.实验结果显示了该方法是有效的,同时也表明用区间型数据的概率分布定义距离比用区间的端点定义距离更为合理.“,”As one of the vital tasks in mining interval data,clustering faces stupendous difficulties on mea-suring similarity or distance between objects.Existing traditional clustering methods have been extended to interval data via geometric distances which mainly consider the bounds of the interval data.These meth-ods neglect information inside the interval data.Therefore,we take the probability distributions of interval value into consideration by using the whole interval data to estimate the probability density function of one cluster.In order to estimate the probability density function of one cluster,we propose a new kernel densi-ty estimation approach which is a nonparametric estimation for interval data.Then,we define a distance between interval objects via the probability density function by the new kernel density estimation.Finally,we construct an adaptive clustering method for interval data.Experimental results show that the proposed method is effective and also indicate that it is more reasonable to use probability distribution of interval value than to only consider the endpoints of intervals.
其他文献
K-近邻技术被广泛用于分类、推荐等热点问题,但针对多元时序数据状态预测问题的解决方案相对较少.文章在三支决策思想的指导下,提出了一种新的状态预测算法及其三支划分策略,
高性能的软件缺陷预测模型可为软件自动化测试奠定重要的基础.当前的软件缺陷预测模型主要采用机器学习分类算法进行构建.其中,基于集成学习的软件缺陷预测模型通常可以达到
文章研究了一类食饵具有避难和强Allee的时滞捕食者-食饵扩散模型.首先,考虑对应的常微分系统,计算出其平衡点的表达式并讨论了这些平衡点的类型及稳定性,其次,讨论了时滞和
针对基本萤火虫算法存在局部开采能力不强,并且容易陷入局部极值等问题,提出一种多样性增强的混合萤火虫算法(diversity-enhanced hybrid firefly algorithm,DeHFA).为提高萤
文章研究了圆局部竞赛图的最小控制集.通过对非强连通圆的纯粹局部竞赛图、强连通的圆的纯粹局部竞赛图,以及圆的竞赛图三个子图类的分析,完全刻画了圆局部竞赛图最小控制集
深度神经网络可以极大地提高单图像超分辨率的质量,盲目地增加网络的深度不能有效地改善网络。文章针对单图像超分辨率任务提出了一种新颖的深度多尺度递归密集网络(multi-scale recursive dense network,MSRDN),首先构造一个浅层特征提取模块来初步提取粗糙特征,然后将粗糙特征输入到多尺度密集模块(multi-scale dense blocks,MSDBs)群中。每个MS
文章建立了一个考虑部分免疫和环境传播的肺结核模型.为得到该模型平衡点的稳定性,使用下一代矩阵法,并构造Lyapunov函数,研究结果表明,当基本再生数R0<1时,模型的无病平衡点
.Bell态测量是量子信息研究中的重要组成部分.之前的研究表明,只基于线性光学操作不能实现完全Bell态测量,但通过引入辅助光子对或多自由度,可以提高Bell态的区分效率.文章利
以钴螯合物为钴源制备的钴掺杂金属有机骨架(MOFs)为前驱体制备了一系列钴/氮共掺杂碳基多功能电催化剂,研究了碳化温度对材料氧还原反应(ORR)和析氢反应(HER)催化性能的影响
在有限群的特征标理论中,研究子群上特征标的不可约诱导是一个基本而重要的问题.Navarro证明了在奇数阶群中关于子群的π-特殊特征标的不可约诱导的三个定理,在Isaacs的π-理