【摘 要】
:
在数据密集型计算环境中,数据的海量、高维、分布存储等特点,为数据挖掘算法的设计与实现带来了新的挑战。基于MapReduce模型提出网格技术与基于密度的方法相结合的离群点挖
【基金项目】
:
山东省自然科学基金资助项目(ZR2011FL013)
论文部分内容阅读
在数据密集型计算环境中,数据的海量、高维、分布存储等特点,为数据挖掘算法的设计与实现带来了新的挑战。基于MapReduce模型提出网格技术与基于密度的方法相结合的离群点挖掘算法,该算法分为两步:Map阶段采用网格技术删除大量不可能成为离群点的正常数据,将代表点信息发送给主节点;Reduce阶段采用基于密度的聚类方法,通过改进其核心对象选取,可以挖掘任意形状的离群点。实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘。
其他文献
公知常识,是专利领域中评价创造性的一个重要考虑因素。本论文围绕公知常识这一重要概念,从专利确权诉讼的角度对相关问题进行了深入的研究。法院或者专利复审委员会对于“公
借助社会的人际关系网,提出web服务中基于信任网的推荐机制用于实现信任关系的传递,给出信任网的数学表达、生成算法和聚集算法,并归纳信任网推荐链之间的各种依赖关系及相应
目的探讨加味柴芍六君颗粒对溃疡性结肠炎(UC)大鼠的治疗效果及对结肠组织髓样分化因子88(MyD88)表达的影响。方法将60只SD大鼠随机分为正常组、模型组、柳氮磺胺吡啶(SASP)
目的观察加速康复外科(ERAS)理念在输尿管软镜下钬激光碎石术(HLL-FU)日间手术模式中的应用效果。方法将80例肾结石患者随机分为观察组和对照组,每组40例。对照组按常规方法
目的观察养血清脑颗粒联合高压氧治疗一氧化碳中毒后迟发性脑病(DEACMP)的临床疗效。方法将64例DEACMP患者随机分为对照组和治疗组,每组32例。两组患者均给予常规治疗及高压
人类在深刻反思传统工业化道路的过程中,不断从理论和实践上寻找着新的发展模式,以模仿自然生态系统的工业生态系统成为人们寻求的可持续发展战略的一个重大选择。本文首先对国
为了优化活性炭对碱蓬多糖的脱色工艺条件,在单因素实验基础上,选取碱蓬多糖脱色过程中的活性炭用量、脱色温度、脱色时间和pH为影响因素,根据Box-Behnken中心组合设计原理,
煤矿在采掘过程中会产生大量的矿井水。由于镇城底矿井水处理系统采用传统的絮凝-沉淀-过滤联合处理工艺,经过滤处理后的水质不稳定,达不到排放标准。经研究采用超滤(UF)-反
目的比较新生儿良性和非良性心律失常的临床特点。方法回顾性分析317例心律失常新生儿的临床资料,根据临床表现、心电图或Holter监测结果将患儿分为良性心律失常组和非良性心