基于重要性采样的流聚类算法研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:rxw257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,流数据分析已成为数据挖掘领域研究的热点,其发展非常迅速,但当前大多数的流聚类算法都是线性的,在现实世界中这些线性的聚类算法并不能达到令人满意的聚类质量。因此,如何让真实世界中的数据有更高的聚类质量是当前亟待解决的问题。针对上述问题,提出一种基于核方法的高效率聚类算法。首先,利用重要性采样的方法来采集数据流中的子集,并用样本点构造其核矩阵;其次,利用样本点的皮尔森相关系数的计量方法对核矩阵中的点进行实时的聚类,得到一个带有标记的样本核矩阵,利用该矩阵对数据流中的点进行划分,将其投影到顶部特征向量所跨越的高维空间中;最后,利用核模糊c均值将高维空间数据点映射到低维空间中得到聚类结果,并用衰退聚类机制进行更新。数据集实验测试结果表明,本文算法与传统聚类算法相比,评价指标中SSE相对较低,ARI、NMI相对较高,而且能够实现实时聚类,有效避免数据处理过程中的维数灾难。综上,本文算法仅需从数据流中采样少量的样本点,所产生的近似误差具有较好的有界性,同时使用核方法使得数据点在特征空间之中变得线性可分。而且有效地减少了调整复杂参数的需要,同时与传统基于内核的聚类算法在同等条件下相比,加速效果显著,具有更高的效率。本论文有图33幅,表13个,参考文献54篇。
其他文献
芳烃化合物,可参与多种有机反应制备高附加值的精细化工品。近年来,随着工业技术的迅猛发展,芳酮化合物的需求量大幅增加,引起了科研人员的研究兴趣。目前普遍采用的制备芳酮
古往今来,为了保证信息的安全性,人们的加密手段不断的更迭,从手工加密到机器加密。但是目前使用的密码大多数基于计算安全性,只能保证密码一定时间内的安全性。随着计算机的计算速度不断的提升和新破译算法的不断提出,破译的时间变得越来越短。尤其是在量子计算机的概念提出后,以计算复杂度为安全性基础的加密方式变得愈发脆弱。针对这一问题,研究人员提出了量子密码系统,通过量子的方式分发密钥,其安全性依赖于量子力学,
21世纪是一个大发展、大变革的伟大时代,人类社会迈向人类命运共同体乃时代发展之必然。伟大时代呼唤伟大理论。习近平人类命运共同体思想正是为解决人类发展的难题而提出的
由于湖盆沉积速度快,陆相富有机质泥页岩表现出强烈的非均质性。针对不同沉积环境的富有机质页岩非均质性研究,本文以东营凹陷FY1井、沾化凹陷L69井、江汉盆地BYY2井及鄂尔多
由于PPP项目能够为政府和私人投资者提供“利益共享,风险共担”的合作伙伴关系,近年来已成为缓解政府债务危机、为社会提供公共产品和服务的新模式。然而PPP项目本身不可避免
数字发射机是一种通过数字处理实现对基带信号调制、上混频,并以开关功率放大器为核心部件放大射频信号的发射机架构,因其功耗低、集成度高、效率高、抗干扰能力强等优点而备
在大数据时代,云计算技术为大数据处理提供了更为便捷的计算环境,使得用户得以专注于计算需求本身而不需要过多考虑计算环境。随着云计算服务在商业市场中的发展,根据已分配的虚拟机作为资源设置的定价模式开始出现。这种新的定价模式使得用户可以自由地定制适合自身需求的资源。对于用户而言,如何为任务选择合适的虚拟机资源设置,使得在满足服务质量(QoS)的情况下,计算所需要的经济开销最小,成为一个困扰他们的新问题。
圆形排样问题指的是:给定一组圆,已知其大小和个数,再给定一个容器,已知其形状,目标是将这组圆不重叠地放到容器中,求容器容积的最小值。这个问题是NP难的,即不能在确定的多项式时间内求得它的解。图像圆点绘制指的是:给定一张图像,根据图像的特征和颜色,在图像区域内摆放合适大小的圆点,使得圆点的排列符合图像的特征,而且它们的颜色能体现原始图像的颜色。本文提出了一种改进区域划分的圆形排样方法,并且研究了图像
在我国实际生活中,关于以物抵债的现象时有发生。但在我国现行法律中缺乏关于以物抵债性质、效力等问题的明确规定,仅在部门规章、行业规范、司法解释、地方法院审理纪要中对
2-D(Two-Dimensional)系统具有多维系统的典型特征,已在过程控制、图像处理、多维信号滤波等领域中广泛应用。在实际控制系统中,非线性是普遍存在的。而且,由于种种原因,系统参数也会存在或多或少的不确定,考虑系统的不确定性是十分有必要的。除此之外,输入饱和特性也广泛存在于现实控制系统中,如果不能有效的解决上述这些问题,就会对系统性能以及稳定性产生极大的威胁。因此,本文针对基于Roesse