基于Hadoop的时空离群点检测算法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:ynjdxyzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据量急剧增长。如何从这些海量的数据集中挖掘出有价值的信息,已经成为时空数据挖掘的一个热点问题,时空离群点检测作为时空数据挖掘的重要分支,其目的是从数据集中挖掘出时空方面的离群点。时空离群点是指与其时空邻居的非空间属性值具有明显差异的对象。识别时空离群点有助于发现一些意想不到的、有趣的和有用的知识。时空离群点检测在很多领域都有重要的应用,例如:金融领域的欺诈检测、故障诊断、网络入侵检测、交通和气象领域等等。本文提出一种时空离群点检测算法,该算法考虑空间自相关性和时空对象之间的交互关系,距离近的事物比距离远的事物之间的相关性更加紧密,所以该算法引入了空间距离权重。在时间离群点检测部分采用时间序列分析的方法来进行检测离群点。但是,在该时空离群点检测算法中,有关空间距离权重的计算量很大,无法有效处理大数据集,所以使用大数据处理平台Hadoop来提高算法的性能,因此提出了一种基于大数据平台Hadoop的时空离群点检测算法,该算法主要利用Hadoop的分布式文件系统HDFS存储海量数据集,以及并行计算框架MapReduce来实现并行计算,并对算法进行正确性、复杂性和完整性分析。在实验部分,利用宁波海潮数据集和合成数据集来验证算法的有效性和可扩展性。实验数据表明,基于Hadoop的离群点检测算法的确可以很大程度上提高时空离群点检测的效率。此外,本文的研究成果被整合到一个功能比较集中的空间数据挖掘平台,为对数据挖掘技术感兴趣的学者提供技术和经验分享的平台。
其他文献
计算机视觉能够从食物照片中估算出卡路里,方便人们监控卡路里摄入,从而控制体重。  针对现有食物卡路里估算存在目标检测精度不高和估算结果误差较大等问题,本文研究并提出了
软件复用能有效地解决软件危机,提高软件开发的效率和质量,降低开发和维护成本.基于构件的软件开发方法是软件复用的一种实践方法,其中的构件技术是支持复用的核心技术,近年
为了促进桌面Linux在中国的应用,打破微软桌面系统的垄断,国家大力推动桌面Linux发展,鼓励政府部门、企业、教育部门日常办公以及电子政务、电子商务等行业采用简单易用、功
随着我国人口老年化问题的加剧,心脏疾病已经成为威胁国民健康的头号杀手。在世界范围内,全球低、中收入国家中80%的死亡是由心血管疾病引起的,以完善和健全医疗健康服务系统,推进
目录技术是企业追踪所有信息,建立高效电子商务平台的关键技术,目前已有多种基于各种平台的商业目录服务软件投入市场。建立基于目录服务的企业信息化平台具有诸多优势,如信息的
分布式人工智能研究的发展为设计智能化的针对大型复杂设备的故障检测与诊断系统奠定了基础.而Multi Agent技术的发展则为设计复杂的故障诊断系统提供了得力的工具.该文以Mul
在如今互联网快速发展的年代,用户不得不花费大量的时间来寻找对自己有用的信息。而推荐系统能够将用户和信息联系起来,一方面帮助用户发现对自己有价值的信息,另一方面让信息能
根据机器人运动和控制的具体特点,汲取面向对象的软件设计思想,设计实现了一个集数据通讯、视频接收播放、三维图形仿真、用户友好的人机接口为一体的遥操作客户端软件系统.
优化问题一直是各领域研究的热点,随着优化问题规模和维度的不断增大,传统的优化算法已经无法解决这些问题。因此,寻求一类新的优化算法显得尤为重要。随着生物学科的不断发展,学
现阶段计算机硬盘以及其他大容量存储介质代替了纸张成为信息存储的主要方式,随之带来的信息安全问题也日渐突出,电子文档的信息安全成为一个至关重要的问题.电子文档的安全