基于信息熵的粗糙聚类算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zzx2324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科学和互联网的飞速发展,各行各业每时每刻都在产生着大量的数据,人们需要在大量数据中挖掘出有用的信息进行科学决策.聚类分析是数据挖掘的重要工具之一,已有的研究主要集中于数值型数据,并得到了广泛关注.近年来对于具有明确类别的非数值型数据(分类数据)的聚类引起了人们的研究兴趣.由于分类数据值域的无序性,因而无法对其进行数值上的大小比较,不能用基于距离的度量方法进行目标对象之间的相似性度量.本文针对分类数据,开展了基于信息熵的聚类算法的研究.本文提出了基于信息熵的粗糙聚类算法.首先,该算法综合信息熵的知识定义一种新的相异度度量,该距离度量考虑属性对聚类的重要性.然后,我们借用信息熵的思想,在经典k-modes基础上,引入粗糙集的上近似和下近似处理不确定性聚类.最后,利用来自UCI的数据集进行实验,实验结果表明,所提出的算法在准确度、纯度及F1测度上均有提高.本文提出的第二种算法是基于信息熵的层次划分聚类算法,该算法的思路是建立在信息熵理论与粗糙集理论中的等价类划分的基础上.首先,根据信息熵的相关知识提出了均值信息增益率,选取均值信息增益率最高值作为等价类划分的属性.其次,选取信息熵最低值作为划分的类,用信息熵较高的类作为下一个目标对象,以此类推,直到找到符合k值的类为止.最后,用粒度等相关知识提出了内聚度的概念,采用内聚度来判断算法的合理性,利用来自UCI的数据集进行实验仿真,实验结果表明,所提出的算法在聚类准确度优于MMR算法,并且在相同条件下运行时间比MMR算法的时间更有优越性.
其他文献
随着医疗机构的信息化建设,产生了大量的电子医疗信息。电子病历以其高效、便捷和易于查询、统计分析的优点,受到了越来越多医疗机构的认可和使用。随着国内医疗数据共享的步伐加快,电子病历在信息流动和数据利用的推动下逐渐走出了医疗机构保护的壁垒。同时,医疗机构使用云服务和提供线上服务平台使得电子病历信息更多暴露在了公共网络环境中。电子病历涉及到患者的隐私信息,因其商业价值,当前有许多不法分子利用各种手段获得
<正>由陕西有色金属控股集团金堆城钼业集团有限公司自主研发的"高纯大尺寸钼制品制备关键技术及应用"被业内专家评定为达到国际先进水平的科研技术,共取得相关授权发明专利1
以往研究主要是从心理压力和情绪枯竭等角度探讨工作不安全氛围对员工的消极影响,但也不能忽视工作不安全氛围的积极作用。文章以压力适应理论为基础,通过对84家企业426份样
在2015年9月3日举行的纪念中国人民抗日战争暨世界反法西斯战争胜利70周年大阅兵的观礼台上,作为特邀嘉宾的日本籍人士中村京子心情格外激动,她收到一枚颁发给她的丈夫——已
<正>那是1989年6月19日至7月8日,第二期全国钱币专业干部培训班在庐山白鹿洞书院举办。我带着对庐山风光的爱慕,对白鹿洞书院的崇敬,对钱币学知识的渴望,来到了古老而宁静的
会议
目标管理是以目标为导向、以人为中心、以成果为标准的系统管理方法,可通过科学制定目标、充分授权、完善绩效考评反馈机制、提升员工综合素质等途径提高企业目标管理工作的
目的探讨克霉唑阴道片联合伊曲康唑治疗霉菌性阴道炎的临床疗效。方法选取芦溪县上埠镇中心卫生院2016年9月—2018年3月收治的霉菌性阴道炎患者36例。依照计算机表法分为对照
目的探讨在糖尿病肾功能检测中运用血清胱抑素C检测的临床价值。方法择医院2015年6月至2017年6月收治的30例糖尿病肾病(试验组)、30例单纯糖尿病(对照组)患者实施研究,患者均
国外研究证实,抗肿瘤药物可能通过皮肤直接接触、吸人,使操作人员受到低剂量药物的影响,导致染色体畸变,具有致癌、致畸及脏器损害等潜在的危险。目前我国对抗肿瘤化疗药物缺乏规
<正>一、绿色债券的诞生及国内外比较绿色债券是政府、金融机构、工商企业等发行者向投资者发行,承诺按一定利率支付利息并按约定条件偿还本金的债权债务凭证,且募集资金的最