大数据环境下高维数据处理若干问题

被引量 : 13次 | 上传用户:to_3000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是信息的载体,同时也是知识的源泉。近年来,随着人类探索范围的拓展,对数据记录范畴迅速扩大,积累了海量的数据。因此,导致大数据现象普遍存在。大数据不再仅仅只是一个名词,而逐渐成为一种数据处理理念。因为传统数据分析方法难以对大数据进行有效处理,这已经引起人们恐慌和重视。如何分析处理这些大数据将是未来几年甚至几十年所面临的最大挑战。大数据处理的研究范围十分广泛,高维数据处理一直都是数据挖掘的一个研究热点,随着数据量的增大,针对大数据中的高维数据的分析势在必行。由于高维数据的稀疏性,导致高维空间中的数据处理方法与低维空间中存在显著差异。低维空间中的许多成熟的算法在高维空间中无法取得预期效果,甚至无法运行。这就要求我们对现有算法进行改进或提出新的框架以适应大数据应用背景。本文从高维数据处理角度来对大数据做了相关分析研究,主要包括以下几个方面:(1)高维数据降维。本文通过对传统降维方法的分析研究,在分析处理前,利用信息熵剔除不满足指定条件的维,再用传统的主成份分析方法分析处理剩余的维,从达到以最简单的方法,用尽可能少的计算量的降维效果。同时算法可以通过调节信息熵阈值来适应维度的变化。(2)高维数据聚类研究。现有的关于聚类算法的研究常常通过某种距离度量簇之间的相似度,高维数据的聚类与传统聚类有区别较大,在高维数据中,距离度量失效,需要研究出新的度量方法来发现簇,本文采用自底向上的策略,使用新的相似度度量函数,基于分而治之的思想解决高维大数据的聚类问题,大大的减小了计算量并改善了聚类效果。(3)高维数据流聚类。在现实应用中,数据多以流的形式到来的,如:Web用户行为、客户购物行为、通讯记录等,与静态数据处理不同的是,流数据的处理具有很强的实效性,高维的数据流实时处理更是一种挑战。本文提出了一种两次聚类的算法框架,很好的解决了多个高维的数据流同时到达时的聚类问题,首先通过对不同来源的多个数据流进行聚类,然后赋予它们综合权值,再使用子空间方法来进行处理,实验证明,该框架在处理多源高维数据流时具有较好的效果。
其他文献
2001年6月,国家教育部颁布实施《基础教育课程改革改革纲要(试行)》,明确提出要实施“国家基本要求指导下的教材多样化政策”。在此背景下,从2003年新的《普通高中课程标准(
应用纳滤膜技术对乌龙茶提取液进行浓缩试验研究。结果表明 ,纳滤可有效实现对乌龙茶提取液的浓缩 ,膜的渗透通量受乌龙茶提取液的性质影响很大 ,并且随操作压力的增大、操作
"敬"是理学的重要工夫,由陈襄、周敦颐、张载提出了最初的理学"敬"论,其后二程子进一步建立了自洒扫应对以至成德成圣的工夫体系。而在二程子逝后,对其思想异同的讨论逐渐兴
<正>近年来,武汉市武昌区粮道街不断加大区域化党建力度,在联设区域化组织、联管区域化队伍、联建区域化制度、联办区域化活动、联筹区域化保障的基础上,以项目建设为平台,以
随着经济社会的发展,人口增长与资源紧缺之间的矛盾日益尖锐,落实到土地环节的关键就是确保耕地资源的相对平衡。近些年来,国家日益加大对土地整治工作的投入力度,土地整治工程项
总结18例急性坏死性胰腺炎病人的术后优质护理,采用长期禁食、胃肠减压、控制感染、营养支持,及时有效的手术治疗以及精心的优质护理,很好地控制了病情的发展,预防了并发症的
一、引言“把”字句自七八世纪产生以来,一直与表处置的“将”字句,以及与表“持、拿”义的实义动词“把”纠缠在一起。[1]长期以来,学术界对其间差异的论述是模糊的,甚至将
改革开放以来,民营经济作为中国经济发展的亮点和动力,有力地支持了国民经济持续、快速的增长,为中国经济做出了重要贡献。与民营经济的贡献不相符的是,民营经济的发展存在很多制
毕飞宇的小说创作之路起步于90年代,从第一篇小说发表开始,在这一过程中,他曾两度获得鲁迅文学奖,多次获得《人民文学》小说创作奖、《小说选刊》奖、《小说月报》百花奖、冯