基于聚类的多粒度属性约简方法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:zhurx180
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技发展、社会的进步和人们生活水平的提高,实际应用中产生了大量的无标签数据,聚类方法是处理这类无标签数据的代表性方法。但由于目标信息系统中冗余属性的存在,影响了传统聚类算法的精度。基于粗糙集理论的属性约简可以在信息系统辨识能力不变的基础上约简冗余属性,提取有用的信息。本文针对无标签数据,提出一种基于聚类的多粒度属性约简方法。通过对聚类算法中K值的调节实现多粒度计算,形成对论域由粗到细的划分,利用聚类结果作为信息表的伪标签,通过粗糙集理论中有监督的属性约简去除冗余属性。使用KNN算法确定最终的分类结果并计算精度,以精度作为属性约简效果的衡量标准。具体的,本文的主要工作分为以下两部分:一方面,对于符号值数据所构成的基于等价关系的信息系统,由于传统K-means聚类算法以欧氏距离度量属性间的相似性,使得该算法只能处理数值型数据。本文采用K-modes聚类算法,然后以聚类结果作为伪标签,通过调节K值对论域形成由粗到细的多个划分,利用正域区分矩阵对每一个划分约减冗余属性,降低了数据集的维度,节约了算法成本。另一方面,传统的粗糙集方法难以处理具有偏序关系的目标信息系统,本文在基于K-means聚类的多粒度计算基础上,采用优势关系粗糙集方法约减冗余属性。最后利用多组UCI数据集,将所提出方法与传统的粗糙集模型和传统聚类方法进行对比实验,由于所提出方法一方面基于聚类信息进行有监督的属性约简,提升了无监督属性约简的质量;另一方面降低了聚类算法受到冗余信息的影响,也提升了聚类的效果。
其他文献
伴随着信息时代的到来,我们生活当中大量的信息以数据的形式通过互联网和各种介质迅速传播,这些数据包含人们的各个方面,例如购物数据、医疗数据、商务数据等,而各个机构和政
据马蜂窝旅游网公布的大数据分析预测报告:“2019年度旅行地榜单”2019年国内旅游目的地新疆排名第一。自治区旅游发展大会召开以来,全区上下大力推动旅游兴疆战略,加之稳定红利持续释放,旅游业各项数据屡创新高。为了给游客提供更优质的旅游产品和服务、展现“新疆是个好地方”的风采还需长期的坚持和努力。随着互联网的快速发展和普及,越来越多的旅游者热衷以匿名形式将游后感受分享在相关平台。这种方式有效的为潜在
吉奥乔·阿甘本是当代意大利极为活跃的思想家,在意大利哲学界和激进政治理论届极富盛名。近年来,阿甘本以其对生命政治思想的独到见解而受到广泛关注,与齐泽克、巴迪欧、朗西埃、巴利巴尔、奈格里等人一起被称为当代欧美左翼理论的领军人物。最早阿甘本对艺术、诗歌、语言学相关领域表现出极大关注,早在20世纪70年代就已经发表相关著作探讨艺术定义、艺术本质等问题。随着社会的发展变化,艺术的内容、形式也相应发生了变化
英语阅读作为信息获取和知识积累的有效输入途径,是高中英语阅读教学实施的重要载体,也是发展高中生英语综合能力的首要条件。我国现行的《普通高中英语课程标准(2017年版)》强调了阅读作为一种理解性技能在英语学习活动中与表达性技能相辅相成、相互促进的重要角色。然而,我国目前的高中英语课堂中以词汇和语法为核心的阅读教学仍有存在,许多教师关注教多于关注学。因此,传统的阅读教学法成为了制约学生阅读素养提高的瓶
随着网络空间形势日趋严峻,各个国家在网络层面上的对抗程度越来越深,技术手段也越来越先进。网络仿真与效果评估平台,即网络靶场,作为进行网安试验的设施与工具,变得十分重
船舶工业的迅速发展促进了对船舶爬壁机器人的迫切需求,针对目前磁吸附式船舶爬壁清洗机器人易磁化船舶外壁面的问题和船用负压吸附机器人研究极少的现状,研究了主要以船舶吃
我国东南沿海地区风资源丰富,同时也属于台风频发地区。风电叶片作为风能捕获装置是风电机组在台风条件下最易损伤的部件。控制减少因台风带来的风电事故,对台风等极端风速条件下的风电叶片进行气动性能和载荷的优化设计研究,对我国沿海地区风电事业发展十分重要。本文基于仿生学原理,以虎鲸为仿生研究对象,设计了一种新的仿生翼型;再建立抗台风风电叶片优化设计模型,设计了一款采用仿生翼型的风电叶片。本文主要研究内容如下
DNS作为互联网的重要基础设施,其安全性对网络服务能否正常运转至关重要。由于DNS的层级结构设计,使得一个域名的解析常涉及诸多权威服务器和域名。本文从DNS递归解析器的角
随着网络结构的复杂化,网络拓扑测量的相关研究受到越来越多的关注,目前网络拓扑测量的相关研究工作主要集中于:提升底层拓扑测量技术,布置高可用测量点以搭建分布式测量平台
近年来,随着移动设备、物联网、智能手机APP等的普及,产生了越来越多的时空位置数据。基于时空位置数据的查询处理在军事、交通、民生等领域具有重要应用价值和实际意义,基于