基于MapReduce与相关子空间的局部离群数据挖掘算法

来源 :软件学报 | 被引量 : 0次 | 上传用户:zhjie1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对高维海量数据,在Map Reduce编程模型下,提出了一种基于相关子空间的局部离群数据挖掘算法.该算法首先利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密度,给出了相关子空间中的局部离群因子计算公式,有效地体现了相关子空间中数据对象不服从局部数据集分布特征的程度,并选取离群程度最大的N个数据对象定义为局部离群数据;在此基础上,采用LSH分布式策略,提出了一种Map Reduce编程模型下的局部离群数据挖掘算法;最后,采用人工数据集和恒星光谱数据集,实验验证了该算法的有效性、可扩展性和可伸缩性.
其他文献
新疆有着深厚灿烂的文化积淀。漫长的的历史长河既产生了许多像喀什三仙洞、巴楚县三岔口石窟壁画等等一样优秀的佛教艺术宝藏,也形成了伊斯兰教影响下的审美情节。在这样的文
在社会飞速发展的情况下,教育教学工作也得到了不断进步,应社会对人才培养的要求,德育教育工作受到了学校以及教育工作者的重点关注。尤其在小学阶段,学生正处于身心发展的关
加强和改进高校思想政治工作事关办什么样的大学、怎样办大学的根本问题,是一项重大的政治任务和战略工程。为了全院学生管理工作循章有序地开展,从育人导向、学工团队、学生
日语中有大量汉字,使得汉语和日语表面有极大的相似之处。但实际上,汉语和日语分属不同的语系,语法和语序上完全不同。两种语言形似而质异,给以汉语为母语的日语学习者造成很
伴随信息技术的发展及其在工作中的广泛应用,企业进行网络建设的重要性越来越突出。但是传统局域网的构建还存在诸多的问题没有得到有效的解决。用VLAN来对企业网进行构建可以
<正>巍巍平遥古城,熠熠华夏明珠。帝尧初封于斯的悠久历史,在这里留下了"一部华夏史,两代明清韵"的文物遗存,在这里传奏着"辐辏四方,汇通天下"的晋商风韵,在这里也孕育出了清
交通噪声影响临街建筑室内人员的工作效率和日常生活。绿化带不仅可以降低交通噪声污染,还能净化空气、提升城市形象。因此,本文以绿化带降噪为切入点,展开了实验研究。论文首先
<正> 孔子是我国春秋时期伟大的思想家和教育家,是儒家学派的创始人。他的著作和私学活动,在中国思想史和教育史上有着十分重要的地位。孔子作为教育家,其体育思想是他的教育
<正>在小学数学考试中,经常会考到数学分数的应用题,很多小学生在这种题型上丢分。为了让小学生能够准确地解答小学数学分数应用题,数学教师要研究数学分数应用题中存在哪些
2009年3月,国务院审议通过了关于推进上海建设“两个中心”的《意见》,明确提出“到2020年,基本建成与我国经济实力以及人民币国际地位相适应的国际金融中心”的宏伟目标。根据