密度偏差抽样在海量数据挖掘中的应用研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:yinxiaoyi5858
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
挖掘海量数据,从中发现有用的信息与知识是当前数据挖掘研究领域面临的重大挑战。到目前为止,海量数据挖掘的主要解决策略包括数据约简和数据降维等,其中,基于统计学中的抽样方法是数据约简方法之一。简单随机抽样方法虽然简单易行,但由于许多数据集含有噪声、非对称、不均匀分布,因此不能正确反映原始数据的总体特性。密度偏差抽样算法通过把数据集密度映射为数据点的抽样概率,调整其抽样概率来达到偏差抽样的目的。 本文在 C.Palmer 的密度偏差抽样算法的基础上,提出了改进的基于网格的密度偏差抽样算法。该算法利用网格结构映射存储数据,经实验证明可以抽取得到高质量的样本,更好的保持了原始数据集的分布特征,并且具有良好的抗噪声能力,因此该算法在实现数据约简的过程中是可行的。 本文针对密度偏差抽样在海量数据挖掘中的聚类和关联规则领域的应用进行了探讨。前者是在密度偏差抽样的样本上进行聚类分析;后者将密度偏差抽样算法与经典 Apriori 算法融合,提出了基于密度偏差抽样的加权挖掘频繁项集的算法。在聚类实验过程中,首先通过基于网格的密度偏差抽样和简单随机抽样方法获得样本,然后在各自的样本上进行聚类的正确识别对比测试,实验证明本文的方法在较低抽样概率的情况下获得了较高的正确识别率。同时,在经实验测试后也验证了基于密度偏差抽样的加权挖掘频繁项集的算法在关联规则挖掘中的高效性。
其他文献
机会网络中节点采用“存储-携带-转发”的工作模式,消息的投递依赖于节点间的机会性相遇以及相互协作。然而在真实的应用场景中,由于自身能量、空间、通信带宽等资源有限,节点可
基于工作流的在线学习强调利用已有的IT基础设施来实现对学习过程的管理,而对学习过程中学习活动的支持仍由学习管理系统( LMS Learning Management Systems)来完成。然而,要
基于B/S模式的计算机文化基础考试系统的设计随着互联网技术的飞速发展,使在线考试系统的实现成为可能。与局域网环境下的考试系统相比,基于Internet网络的无纸化考试能够更有
本文主要研究了固定场景情况下基于背景减除方法的运动检测在视频监控中的应用。内容涉及运动检测方法及应用、背景模型选择及建立、阴影的检测和识别以及运动估值几个方面。
本文选题来自江苏科技大学“船舶工业集团军贸基金”重点科研项目---舰船综合后勤保障系统研究。为此我们设计了一个基于J2EE的分布式企业级多层次应用架构,并将利用这一架构
模型驱动体系结构是OMG在2001年提出的一种新的软件方法学,它将系统功能规约与特定技术平台的功能实现规约相分离,以达到“一次设计,任何平台实现”的目的。 本文通过把PI
XML(eXtensible Markup Language)已逐渐成为互联网信息的主要表示和交换标准。为了有效地分析和处理XML数据,研究者们已经提出了各种XML数据处理技术,其中XML的存储、索引、查
目前基于网络攻击的信息安全存储技术发展比较成熟,如防火墙技术、IDS等,而基于内控安全的信息安全存储技术发展还远未达到市场的要求。本文通过分析目前文件信息安全存储领
随着市场竞争的加剧,越来越多的电信运营商已经意识到,在寻找业务增长点的同时,要更加关注企业内部的收入管理。为了减少企业收入的流失,开始了对电信企业收入保障的研究。收入保
在传送网的建设过程中,由于种种原因,导致现有的传送网是一个设备厂商众多、多种技术并存的复杂网络,这给传送网网管系统的运行维护和综合管理带来了很大的困难。在以前的综合网