【摘 要】
:
聚类分析是数据挖掘中非常重要的一个步骤,该步骤将混乱的数据按一定规则聚集成一些具有现实意义的类别。这些聚集而成的类别为初始信息的挖掘以及后续更深层次的信息发现提供了强有力的支持,具有非常重要的研究意义。在现实世界中,不仅充斥着像身高、体重等可以用数值量化的数值型数据,更多的是像等级评价、颜色、职业等无法用具体数值量化的分类型数据。在这种情况下,对分类型数据的聚类算法研究就显得尤为重要。而分类型数据
论文部分内容阅读
聚类分析是数据挖掘中非常重要的一个步骤,该步骤将混乱的数据按一定规则聚集成一些具有现实意义的类别。这些聚集而成的类别为初始信息的挖掘以及后续更深层次的信息发现提供了强有力的支持,具有非常重要的研究意义。在现实世界中,不仅充斥着像身高、体重等可以用数值量化的数值型数据,更多的是像等级评价、颜色、职业等无法用具体数值量化的分类型数据。在这种情况下,对分类型数据的聚类算法研究就显得尤为重要。而分类型数据由于其数据的复杂性以及不可量化性,对其进行聚类算法研究面临着许多困难,研究成果远不如数值型数据聚类算法丰硕,可探索空间以及改进空间巨大。本文基于现有分类型数据聚类算法进行改进研究,提出了几种优于基础算法的改进聚类算法,本文所做工作主要如下:(1)考虑分类型数据集中不同属性的聚类贡献程度,提出了一种最大熵正则化加权模糊K-modes算法。该算法在模糊K-modes算法的目标函数中添加了特征权重熵,在最小化聚类内离散度的同时,通过最大化属性权重熵来强调重要属性特征,最终获得最优聚类结果。在UCI数据库的5个数据集上进行的实验结果表明,所提出的最大熵正则化加权模糊K-modes算法与模糊K-modes算法相比在聚类正确率、聚类精确度和召回率等方面均有提升。(2)针对直觉模糊K-modes算法在分类型数据聚类过程中采用简单匹配相似性度量和在聚类的每一次迭代中直接根据直觉模糊隶属度矩阵来确定数据对象所属类别的缺点,提出一种迭代直觉模糊K-modes算法。该算法首先基于直觉模糊集定义了一种加权的直觉模糊隶属度相似性度量;其次,将直觉模糊隶属度矩阵作为迭代信息贯穿于整个聚类过程,使算法中的直觉模糊思想得到充分体现。实验结果表明,该算法的聚类性能明显优于直觉模糊K-modes算法。(3)针对迭代直觉模糊K-modes算法受初始类中心影响较大的问题,提出了一种基于布谷鸟搜索的迭代直觉模糊K-modes算法。该算法首先通过布谷鸟搜索算法寻找K个优质分类型数据初始类中心,然后利用迭代直觉模糊K-modes算法一步聚类,最终得出分类型数据聚类结果。实验结果表明,基于优质初始类中心的选择,该算法的聚类性能得到明显提升,聚类表现优异,明显优于迭代直觉模糊K-modes算法。
其他文献
广泛存在于各种水体中的微生物污染严重威胁着人类健康,2019年爆发的新型冠状病毒肺炎疫情再次将公众对病原微生物传播控制的关注推向了高潮。污水处理厂的消毒单元作为病原微生物的汇集和灭活节点,是保障回用水安全性的关键。但目前缺乏地域性实际消毒方式及其运行情况的全面概括,尚不清楚各消毒形式应用时的具体潜存问题。鉴于此,本文聚焦于太湖流域污水处理厂,统筹剖析了其中实际运用的消毒工艺及运行状况,开展了次氯酸
糖类是自然界中广泛分布的一类重要的碳水化合物。糖类既是生物体重要的组成物质,也是生物体基本生命活动所需能量的主要来源。糖类物质常作为食品工业的主要原料和辅助材料,也是部分食品的主要成分之一。但是医学研究表明,摄入过多的糖分会对人体造成诸多不良影响,例如削弱免疫力,引起肥胖、动脉硬化、以及糖尿病等疾病,危害孕妇机体,不利胎儿优生,严重影响糖尿病患者等特殊病患的生命安全。因此对食品中的糖类进行定性定量
木质纤维素是自然界中最丰富的可再生资源,可用于生产燃料乙醇、生物柴油等能源产品,也是制备化学品和造纸的主要原料。木质纤维素主要由纤维素、半纤维素和木质素组成,复杂的化学结构限制了其高效利用,故必须对其进行预处理,去除木质素、半纤维素等不可溶物质,从而使其更易被酶水解成可发酵的糖,进而提高木质纤维素的降解转化率。预处理技术可以改变木质纤维原料的内部结构和表面性质,为后续的酶解糖化创造良好的条件。从物
随着社会工业化进程的不断加快,越来越多的致癌物质六价铬(Cr(VI))和四环素类抗生素(TC)在工业废水中被检出,这严重危害了生态安全。幸运的是,基于高级氧化工艺的半导体光催化技术在去除水体污染物方面具有巨大潜力。光催化剂的催化性能是该技术的核心,在众多光催化剂中,溴氧铋(Bi OBr)和钨酸铋(Bi2WO6)凭借其独特的层状结构、合适的带隙和稳定的物理化学性质引起了研究人员的广泛兴趣。然而,Bi
在光子学中,实现高性能共振以提高光学器件的性能至关重要。超表面结构不依赖传播引起的相位差,其在传播方向上的尺寸可压缩到波长级别,为现代光学器件小型化和集成化提供可能。为了有效耦合和控制电磁辐射,电介质超构表面提供了一个简单而有效的平台,在不同的技术领域得到广泛应用。当前人们通过定制微纳超构表面实现具有优越性能的Fano共振,但往往具有较为复杂的结构设计和调控过程,且其对共振调控机制的深入分析仍有待
微纳尺度结构中具有特殊光学模式,比如光学塔姆态、表面等离子体、体等离子体等,通过研究这些模式共振的物理机制,可优化光子局域特性。光学塔姆态也被称为塔姆等离激元,是一种新型光学模式,常见于金属和多层光子晶体交界面处,能被TE偏振和TM偏振光同时激发,不要求特别的入射角度就可以进行。但是,传统塔姆结构由金属和光子晶体组成,对于激发环境有限制作用,并且光子局域场位于多层塔姆结构内部,削弱了塔姆等离激元应
网络控制系统(NCSs)组件间通过互联的数字网络进行信息交互。NCSs将网络空间连接到物理空间,以便远程执行多个任务,这不仅节约了安装成本,而且可以实现不同部件的远距离通信。网络通信虽然带来了便利,但也会造成一些影响,这往往使系统稳定性分析变得困难。并且,在实际的工程运用中,NCSs的结构往往是复杂多变的,因此许多不同类型的控制系统被提出,例如由于系统存在严重的非线性特性而提出的T-S(Takag
相较于传统的明/暗场成像技术和探针标记成像技术,定量相位成像技术不仅可以在非标记情况下获得透明相位样品的高对比度图像,且能够重建出样品的光学厚度和形貌轮廓等定量信息。因此无论是相较于各类标记强度成像技术,还是相较于传统的相衬成像和微分干涉相衬成像等定性相位成像技术,定量相位成像技术因其明显优势获得了更广泛的关注。定量相位成像技术主要包括数字全息/干涉技术、相干衍射成像技术、强度传输方程成像技术和S
本论文中所处理的群均是有限群。在群论研究中,利用子群性质来研究群的结构是热点课题之一,其中子群的拟正规性质和嵌入性质一直受到国内外许多学者的关注,并取得了丰富的研究成果,同时也产生了新的研究课题。本论文应用σ-群的理论,来研究子群的弱tσ-嵌入性和弱n-σ-嵌入性对群的结构的影响,运用的研究方法是极小阶反例法。主要内容如下:第三章中,研究弱tσ-嵌入子群与群的σ-可解性、超可解性和π-幂零性。首先
本文针对传染病医院集中热水供应系统的不同能源形式进行能耗分析,选择了闭式承压空气源热水系统。通过严谨的设计计算进行设备选型,为集中热水系统的设计提供了数据支持,为空气源热泵机组、辅助加热设施、闭式水罐的选型提供了依据。