类属型数据的加权粗糙聚类算法及应用研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:c1s2d3n456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的不断增大,竞争的日趋激烈,人们迫切需要从大量数据中挖掘出有用的知识和信息来辅助决策,数据挖掘技术随之应运而生。聚类分析是数据挖掘的一种重要技术,但以往的研究大多限于数值型数据,类属型数据的聚类算法则被研究地较少。   类属型数据的值域是无序的,无法进行其值的大小比较。因此,我们不能用基于距离的方法度量类属型数据对象间的相似性,传统聚类算法也对类属型数据聚类失效。现存的一些类属型数据聚类算法,期望的簇数目需人工确定,聚类结果对样本输入顺序敏感,没有考虑不同属性对聚类的重要性,降低了聚类分析的质量和效率,限制了聚类分析的应用。   鉴于此,本文提出了一种加权粗糙聚类算法:首先把各个属性特征看作同等重要,赋予相同的权值,根据粗糙集相似关系得到初始聚簇;然后利用信息增益率去衡量属性特征对聚类的重要性;最后用信息增益率值更新属性的权值,不断迭代,直到产生满足要求的聚簇。该算法能够处理类属型数据,不需要预先给定簇的数目,对样本输入顺序不敏感,考虑了属性对聚类的重要性,提高了聚类的质量。   最后,利用来自UCI的数据集实验,证实了该算法在分类正确率和聚簇的纯度上均有提高。并将该算法应用于中医亚健康数据,发现了数据中的潜在规律,给中医亚健康状态分类辨识研究提供了一定的理论支撑,为亚健康的发现和防治提供了科学依据。
其他文献
长期以来,农药以其见效快、防治面广、性质稳定、便于储运、价格低廉等优点,在防治农作物病虫草害中发挥着巨大作用,促进了我国现代农业的发展。同时,化学农药的大量使用和滥
网络的推广与应用使得电子邮件已经成为人们信息交流的重要手段,但随之而来的垃圾邮件问题严重影响人们的生产和生活。垃圾邮件过滤技术的研究具有十分重要的意义。目前存在
约束纹理映射是一种特殊的纹理映射方法。它继承了纹理映射丰富景物表面及简化建模的优点,同时实现三维网格模型与纹理的特征匹配。目前,约束纹理映射主要集中在真实感人脸的研
全国各地档案馆、音乐学院等积累了大量的历史音频资料,其中许多资料具有历史和文化的特殊价值,也不乏各种孤本。对于珍贵历史音频资料而言,具有不可再现性。随着时间的变迁
本体论在增强系统之间的互操作性,基于语义的相互访问,以及推动下一代互联网“语义 Web”等方面扮演着极其重要的角色。现今大量的本体分散于互联网各处的大型信息系统,知识管理
组播作为一种针对多点传输和多方协作应用的组通信模型,其良好的扩展性得益于其开放性的模型,即任意用户可以接收组中的数据、任意源也可以向组中发送数据。但由于缺乏对接收者
在基于文本的视频信息检索的基础上,上世纪90年代出现了基于内容的视频信息检索(CBVR)技术。由于视频镜头边缘与视频的制作方式有着不可分割的联系,镜头边缘的检测效果决定关键
当今社会许多大型计算仅由一台高性能计算机已经无法单独完成。随着网络技术的迅速发展,逐渐出现由多种计算机平台和多系统合作组成的网络计算机系统。网格的特点包括:节点的
面向服务的体系架构(service-oriented architecture,SOA)具有松耦合,开放性等特点,这给服务重组、资源整合带来优势的同时也给服务查找和组合带来挑战,容易使网络和系统平台
本文通过对K-means聚类分析算法研究,引入遗传算法和小生境技术,针对遗传算法和聚类算法的缺点,提出了一种改进的小生境遗传聚类算法,该算法的改进之处:首先将遗传算法和K-me