大规模数据聚类中的权重抽样方法研究

被引量 : 0次 | 上传用户:xst191217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会处于一个全面信息化的时代,信息存在于人们日常生活的各个领域之中。作为数据挖掘领域的重要算法之一,聚类是一种无监督的分类工具。根据个体的不同属性,聚类算法将原本无规则的数据集划分为多个聚类组,同一个聚类内的数据相互之间相似度较高,而不同聚类的数据之间相似度较低。通过聚类,符合需求的聚类组中的数据可以得到批量的处理,有助于人们对数据进行管理与各种操作。然而,随着近十多年来信息存储和处理技术的飞速发展,信息量的爆炸式增长给传统的聚类算法带来了一定的困难。首先,随着待处理数据的多样化,数据的形式由单纯的数字型变为文本、音频、视频,其属性的种类也变得多种多样,属性的统一量化变得较为困难;同时,由于数据个体本身属性的数量由原来的几种增加到几十种甚至成百上千,数据集的结构呈现出更为复杂的非线性特征,使得传统的划分聚类方法变得不再可行。更加重要的是,大数据集的聚类操作需要更大的存储空间与更多计算时间,使得传统聚类算法的性价比较低。本文主要针对时间与空间损耗问题,提出一种基于权重抽样的聚类算法,使得在保证聚类质量的同时,尽可能的减少计算时间。针对大规模数据聚类带来的空间需求和时间损耗问题,并行计算与合理缩小聚类数据集是两种可行的方法。通过在原有数据集进行抽样形成子集,在数据子集上进行聚类操作显然可以极大的节省存储空间和聚类时间。与此同时,如果可以尽可能的保证子集中的数据更加典型和有意义,以至于子集上的聚类结果接近于原数据集上的聚类结果,算法的设计也便达到最终目的。本文提出了一种对这类更加有意义的数据点的定义,对于原数据集中的数据赋以权重,并设计了几种权重的更改方法,可以借助熵、方差的使用来提高这些有意义的数据点的权重,使其有更大可能性进入抽样子集。实验结果显示,此后的聚类算法在此抽样子集上进行,在保证聚类质量的同时,减少了对于存储空间和计算时间的需求。
其他文献
<正> 我院1993年2月至2000年3月共治疗腹部切口液化患者30例,其中16例采用微波照射及局部50%葡萄糖液(高糖)封闭治疗,取得良好效果,14例采用传统方法治疗,现将治疗结果报告如
本文爬梳钩稽吴梅村诗学之论 ,指出梅村诗学理论主旨有以下数点 :一为论诗主才思、性情与学识并重 ,这一诗学观 ,可以说是他的诗歌创作主体论之一。二为主知人论世 ,强调客观
当前 ,现代汉语词汇规范化工作远远不如语音、语法规范化所取得的成绩 ,其中一个重要原因是缺乏明确的词汇规范标准和执行标准的具体办法。本文对词汇规范化工作中经常碰到的
<正>《大汶口—新石器时代墓葬发掘报告》是我国山东省继《城子崖》之后的第二部田野考古专刊,报告公布了1959年夏第一次发掘山东省宁阳县堡头村西133座墓葬的全部资料及其研
文化转向和翻译是近年来翻译研究的重心,翻译被看作是跨文化交际的行为,异化和归化论成了翻译中争论的焦点。翻译的标准受翻译语境、目的等诸多因素的影响,而且离开具体的翻
关于国际经济法定义与范围的主要观点有三种。第一种观点认为国际经济法是"经济的国际法",简称狭义说;第二种观点认为国际经济法是"国际经济的法",简称广义说;第三种观点认为
作者等就多年来在萃淋树脂及螯合树脂在金属元素分离及试剂纯化方面所取得的经验和成果作了总结。在萃淋树脂方面,概要地叙述了此类树脂的制备方法,其选择性及应用等内容。就
概述了声表面波传感器、分子链荧光传感器、离子迁移谱以及电化学传感器等可用于检测爆炸物的化学传感器,对其工作原理进行了阐述。对于不同原理的传感器达到的不同的检测效
采用固体进样-石墨炉原子吸收光谱法测定海产品中镉的含量。以1.0 g·L-1硝酸铅溶液为基体改进剂,灰化温度为950℃,原子化温度为1 900℃。镉的进样量在0.05~0.2 ng之间与其吸
<正>在刚刚结束的第三届中国品牌年会上,凭借匹克取得的不俗成绩,匹克董事长许景南当选"中国自主品牌建设十大功勋人物",匹克为走向世界所做的努力获得了高度肯定。许景南手