面向大数据的聚类挖掘算法研究

被引量 : 0次 | 上传用户:elements17
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息技术的快速发展与应用,大数据时代已经来到,大数据挖掘技术应运而生,它是一种从大规模、快速到达、异构的数据源中有效地挖掘有价值知识的数据处理技术。本文把面向大数据的聚类挖掘算法作为研究重点,针对大规模数据集与高速数据流两大特点,对大数据聚类挖掘算法进行研究,以提高挖掘效率为目标,既研究算法本身的改进又研究算法基于云计算的并行化。针对高速数据流聚类,以提高实时在线流数据聚类挖掘的准确性为目的,通过对StrAP算法加以改进,设计了一种基于滑动时间窗口模型的在线聚类算法ISTRAP,并通过仿真实验验证了该算法的性能。在ISTRAP算法之上,依据对数据流历史数据及演变分析的需求,进一步设计了层次化的流数据聚类算法HSCLUSTER算法,并通过仿真实验验证了该算法的良好性能。针对大规模数据集聚类,以降低大数据聚类挖掘的时间复杂度为目标,提出了一种基于Hadoop云计算平台的并行化加权AP聚类挖掘算法P-WAP算法。为了验证所提出的P-WAP算法的有效性,设计了基于Hadoop的仿真实验,实验结果表明,P-WAP算法能够很好地适用于大规模数据集的聚类挖掘。本文还将P-WAP算法应用于文本聚类,在实验文本数据集上运用P-WAP算法的聚类结果表明,P-WAP算法通过对大量的文本信息进行自动分类,能够较为准确地聚类文本,使文本集的使用和管理变得更加高效和方便。本文研究内容能适应大数据的规模性(volume)、高速性(velocity)和持久性(vitality)特点,研究内容较先进,研究成果具有一定理论价值和良好的实用性,研究成果可用于电子商务、物联网等拥有大数据的应用场景。
其他文献
求解析几何最值问题的常见类型——兼谈一题多变遂宁二中游洋波最值问题是高中数学中十分重要的内容之一,它贯穿各章节,涉及的知识面广。很多学生对这类问题的解决感到茫然,不知
以中间相炭微球(MCMB)为原料,在100MPa的压力下冷模压成型后,再经过热处理得到高密高强炭/石墨材料。考察了不同热处理温度对制品的力学性能以及微晶结构的影响。实验结果表明,MCMB
近年来,文学作品重译作为翻译的一种特殊现象,引起了我国翻译界的广泛关注,关于重译的观点也各不相同。本文试图从意识形态对翻译的影响入手,分析文学作品重译的必要性和意义
保护环境说到底是为了让人类生活得更美好。生态移民是保护和修复生态环境的好手段,但如果移民把生活质量越移越低,老百姓不喜反怨,可就与生态移民的目的背道而驰。只有保障
本文在整数的扩展欧几里德算法基础上,对椭圆曲线加密体制的有限域求模逆算法作出改进,不仅有效提高了运算速度,使之同时兼容二进制域和素数域,同时也利于硬件实现.
人口状况和未来人口发展趋势对社会保障事业的影响是极其巨大而深远的。构筑和完善我国社会养老保险机制所不容忽略的重要一点,就是要顺应人口发展变化的规律来进行相关政策的
无人机飞行控制系统中,传感器用于测量飞机的飞机状态参数,并反馈至飞控计算机中进行飞行控制律解算,从而实现无人机的自动驾驶飞行任务。无人机飞行控制系统故障诊断是无人机健
随着人们生活节奏的加快、工作压力的加大和环境的不断恶化,对于如何利用自身的生理信号信息来实时快捷的了解自身身体状况,做好相应的预防应对工作变得尤为重要。心电信号作为
我国控制性详细规划发展至今已有三十年,在全国各地的城市规划人员不断努力与改进下,控规发展已进入相对成熟与稳定的时期。指标体系作为控规的核心组成部分,是对城市土地管
餐饮行业是和我们的日常生活最息息相关的一个行业,在餐厅就餐时,“点菜”似乎是一个最简单的过程,但却是关系着商家运营成败的关键。随着计算机网络的普及和移动互联网的发