三支决策聚类算法的改进及应用研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:wangwei4833250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电子商务推荐系统、社交网络分析、生物医药等领域普遍存在重叠聚类问题。每天都在海量增加的增数据使得数据间的关系变得更复杂,类与类之间的重叠问题更加突出。如何对海量增加的数据进行聚类分析,挖掘出有用信息已成为数据挖掘领域的难点问题。因此,研究一种同时解决增量和重叠问题的聚类算法成为关键。三支决策思想的出现为重叠聚类提供了新的解决思路。基于树结构的三支决策增量聚类算法(TIOC-TWD算法)同时解决了增量和重叠问题。但TIOC-TWD算法在计算相似度时没有考虑到属性重要度不同的问题,且算法只对纯数值属性数据适用,不能处理混合属性数据集的聚类。针对以上问题,本文分别对增量数据的重叠问题和静态混合属性的重叠问题进行研究。论文主要完成以下工作:1.为解决增量数据的重叠聚类问题,给出了一种基于属性重要度的加权TIOC-TWD聚类算法(W-TIOC-TWD算法)。改进TIOC-TWD聚类算法中的距离计算公式,将属性重要度考虑到距离度量中,属性权重的引入弥补了原聚类过程中将所有属性的贡献度视为相等的不足。分别在人工数据集和UCI数据集上验证W-TIOC-TWD算法的有效性,实验结果表明W-TIOC-TWD算法比原算法具有更高的聚类准确率和稳定性。2.针对静态混合属性数据集的重叠聚类问题,给出了一种基于三支决策的混合属性聚类算法(MAW-SOC-TWD算法)。该算法定义了一种新的混合属性权重系数分配方法,并改写了 SOC-TWD算法(TIOC-TWD算法中针对静态数据聚类的算法)的距离计算公式。在UCI数据集上验证算法的有效性,对比实验结果表明本文所提的MAW-SOC-TWD算法比现有的算法具有更高的聚类准确率。
其他文献
随着无线数字媒体内容的爆发式增长,传统单一网络已经无法满足用户需求。因此,无线异构融合网的概念应运而生。能耗(包括移动设备能耗和基站能耗)是极大影响用户体验和系统效
近年来,卷积神经网络和可变形部件模型在计算机视觉领域中取得了令人瞩目的成绩。卷积神经网络作为深度网络的一种,结合传统人工神经网络和卷积运算,通过稀疏连接、权值共享
人类社会产生的数据量正呈爆炸式增长,大数据的应用无处不在,查询的响应速度直接影响大数据从业者的工作效率,进而可以影响到社会发展。因此,对查询进行优化,缩短查询的执行时间是十分重要的。查询优化中涉及连接顺序,连接站点,和连接方法等因素且各因素互相影响。所以,建立清晰的模型来描述和评价查询执行过程,设计出适用于当前最新的跨数据源跨数据中心的分布式数据库系统的有效查询优化算法具有重要的理论和现实意义。本
张量互补问题(TCP)和张量特征值互补问题(TEiCP)是张量优化领域的研究热点之一,在博弈论与工程计算方面具有重要的应用背景。我们提出了求解TCP的半光滑牛顿法和求解TEiCP的光滑牛顿法,分析了其收敛性并给出了数值结果。论文的主要工作如下:(1).通过一类新的NCP函数,将TCP转化为非光滑方程,证明了该方程是半光滑的,结合一种新的次微分计算方法设计了牛顿算法求解该方程,得到了一些有趣的性质,
无线传感器网络是由多个利用无线电进行交互的设备组建而来的一种网络形式,该网络能够辅助实现目标物体位置的确定,目前已经成为多个研究和应用领域的重要技术。随着无线通信
随着信息技术的飞速发展,社会学、物理学、经济学、生物学、计算机科学等领域的复杂网络呈现出更为多样和复杂的结构特点。社区是复杂网络的一个重要特征,现如今,社区发现和社区搜索是针对复杂网络上的社区进行分析和挖掘的两种主要的技术手段。社区发现致力于查找复杂网络中全部的社区,社区搜索旨在查找复杂网络中给定节点所在的局部社区。两者的主要区别在于社区发现针对整个复杂网络,使用全局性的标准,全面地检索和分析所有
对流尺度集合预报作为数值天气预报的研究热点之一,在提高灾害性强对流天气预报准确率方面具有重要的意义与价值。本文首先利用传统的增长模培育(Breeding Growth Mode,BGM)
随着信息技术的快速发展,信息分享作为一种促进企业合作、提高供应链绩效的策略一直受到业界的广泛关注。然而,在经济高速发展的环境下,同业竞争日益激烈,信息分享的实现还存
本文通过对现有行政协议程序相关法律法规进行梳理比较,分析行政协议程序的特殊性及其体现,论证其特殊性的正当来源,同时针对行政协议特殊程序运行可能带来的公共利益损害风
本研究以自然生态系统可持续发展、人类整体福利最大化为基本出发点,对乡村地域功能的时空演变特征、多功能评价与识别、驱动因素与机理分析、优化方案与相关政策等方面进行