基于AP聚类的不完整大数据填充

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:sangsang126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充精度。
其他文献
在信息技术迅速普及的今天,随着农村中小学现代远程教育的实施和学校校园网络的开通,使以多媒体电脑为主的现代信息技术应用在农村教育成为可能,也决定了现代信息教育与新课
为了更好地确定海缆的选型要求,介绍了海缆线路的结构参数,利用ATP-EMTP软件建立模型,分析了空载线路和单相故障的工频过电压机理,并通过仿真进行验证。
在当代资本逻辑成为全球现代性扩张的强权逻辑背景下,美国学者詹明信站在晚期资本主义学术批判的立场上对“毛主义”进行了解释学意义上的评价,并探讨了第三世界国家现代性建
在我国区域化发展过程中,逐渐形成了建构型区域协调发展与自发型区域协调发展两种基本模式。其中,建构型区域协调发展模式以中央政府为主导,以国家发展战略和宏观发展政策为
介绍了FX系列PLC与PC的通信,从软、硬件角度分别给出了不同的解决方案。指出了编程口通信与计算机链接通信在通信参数配置和通信帧格式上的不同以及软元件地址的计算方法,同
恶性肿瘤严重影响人类健康,也是医学科学与技术发展所面临的巨大挑战,迅速发展的纳米技术可以为人类最终攻克肿瘤提供新的契机和希望。2004年,美国卫生及人类服务部、国立卫
[目的]提高蓝藻抗病毒蛋白-N(CVN)的异源表达量,获得大量高纯度可溶性蛋白。[方法]采用RT-PCR从酱油发酵酱醪宏基因组中克隆获得CVN基因cvn-SF,构建了重组表达载体p ET32a-cvn-
后现代主义的基本特征是解构,解构文本、意义、表征和符号,对给定的文本、表征和符号有无限多层面的解释可能性。它排斥"整体"的观念,强调异质性、特殊性和唯一性。纵观世界
抗生素污染对水生和陆地生态环境系统造成严重的威胁.在世界各地的水性环境中普遍检测到第二代合成氟喹诺酮类抗生素—诺氟沙星.因此,水环境中残留诺氟沙星的去除成为当今研
《扬州画舫录》是清康乾时期,尤其是乾隆全盛时代扬州文明的实录,经济文化辉煌的缩影.它在诸多方面形象地展示了当时兴旺发达的商业经济和繁荣昌盛的文化事业,并给人以珍贵的