聚类算法在大规模数据集上的应用研究

被引量 : 0次 | 上传用户:Ningyuan321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展和日益普及,各行各业所积累的数据也日益增多,尤其是近年来,“信息爆炸”、“大数据”等概念日渐兴起,如何从大规模数据集中挖掘有用信息已成为热门的研究方向,数据挖掘就是一门在该背景下诞生的新兴技术,旨在从大量数据中发现潜在的知识。作为数据挖掘领域内的重要研究方向之一,聚类分析目前已广泛应用于数据分析、图像处理、模式识别等领域。但随着数据规模的日益增涨,传统的聚类算法在执行效率、聚类效果等方面均存在一定局限性,因此聚类算法在大规模数据集中的应用研究显得尤为重要。针对这一问题,本文从抽样的角度展开了深入研究,主要工作如下:首先,针对采用简单随机抽样对大规模数据集进行抽样时容易丢失类的问题,结合已有的基于固定网格划分的密度偏差抽样算法,提出了一种新的可变网格划分算法,并在其基础上对传统密度偏差抽样算法加以改进,设计并实现了一种基于可变网格划分的密度偏差抽样算法。实验结果表明新的可变网格划分算法能针对特定数据集构建符合其分布特征的网格空间,并能实现网格划分相关参数的自动确定,而相对于简单随机抽样算法、基于固定网格划分的密度偏差抽样算法,基于可变网格划分的密度偏差抽样算法能有效提高抽样效率,保证样本质量。其次,针对所提出的基于可变网格划分的密度偏差抽样算法的实用性展开深入研究,将其集成到WEKA数据挖掘平台中,实现了对某社交网站大规模地理位置数据的聚类分析。实验数据显示,基于可变网格划分的密度偏差抽样算法在处理实际问题中的大规模数据集时同样具有一定的优势,相对于WEKA平台中的其他抽样算法以及微软平台下的Scalable-EM算法,基于可变网格划分的密度偏差抽样算法能够有效提高样本质量,缩短聚类时间,实现了聚类算法在大规模数据集上高效、准确的应用。
其他文献
在当前发展过程中,市场环境不断变化,各项体制不断改进和完善,企业之间也开始面对更加严峻的竞争,企业如果想要从根本提升竞争能力,进行可持续发展,不仅需要对现有的技术进行
从云南、广西濒危植物蒜头果中分离、纯化出一种新的蛋白质―蒜头果蛋白,并分别用鸡、兔的红细胞悬液检测其凝血活性.结果表明,蒜头果蛋白对鸡、兔的红血球都具有凝集作用,是
目的通过检测半乳糖凝集素-1(Galectin-1)在不明原因性流产(UHA)患者蜕膜组织液中的表达及变化,探讨Galectin-1蛋白对胎盘形成的影响。方法选取2010年6月至2011年12月我科收治的
有组织犯罪是一种危害极其严重的犯罪形态,与恐怖主义犯罪、毒品犯罪一起被联合国列为当今人类三大灾难性犯罪。有组织犯罪具有“反社会性”,其犯罪行为具有暴力性,对政治、
游泳运动作为一项古老的体育运动项目被沿用至今,己成为现代社会生产生活中的必备生存技能,并且越来越受到人们的重视。目前,随着黑龙江省普通高校游泳场馆的不断建设,游泳课程已
正是美国对于影子银行的监管缺失与放任自流造成了次贷危机的爆发。中国影子银行虽然不具有美国的高度衍生性与高杠杆,但是以其快速增长的趋势正在成为研究的热点。当前针对
新农村建设是近几年国家建设非常重视的一项国策,它集政治建设、经济建设、社会建设、文化建设为一体,共同协调发展。但目前新农村的文化艺术建设正面临着一系列的有待解决的
随着汽车工业的飞速发展和国民收入的不断提高,我国城市居民中使用车辆的人越来越多,然而城区内停车设施的建设,却远远滞后于城市机动车拥有量的增长速度,这种矛盾最终产生了“停
马克思高扬“劳动成就人的生命本质”,本文试图通过梳理马克思自由观、劳动观的发展轨迹,解析其内涵。通过批判资本主义社会的劳动的异化,阐发马克思的劳动自由理论,为正视劳
随着农业科技的发展,机器人在农业生产方面的应用日益广泛。但是,机器人受地形环境的影响较大,不能保证农业信息采集的连续性,容易导致农业信息采集不完整、不准确。为此,设