动态数据流挖掘关键技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:reato
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界因计算机广泛应用而不断产生的数据给在线数据处理和知识获取带来了新的挑战。诸多应用包括国家安全、普适计算、工业质量监测系统、通信和计算机网络等都需要在线监测和分析。而在这些应用中,由单个或多个数据源并且以空前的速度产生的大量的数据即为数据流。由于数据流本身的特点,如不间断性、数据分布的动态性和数据到达速率的波动性等,数据的大小可能趋于无穷而且数据也是不断变化的,因此如何及时地从新到达的数据中检测出有用的模式对实时决策分析和异常预警至关重要。本文首先综述了数据流领域的最新进展,分析得知在该领域研究的问题往往与分类相关。决策树算法是最先被运用到数据流中的分类算法之一。最早的数据流决策树学习方法是以Hoeffding边界作为节点的划分准则。Hoeffding边界由于其概率分布的独立性而得到广泛关注,在其分母(当前观察的样本数量)较大时结果可收敛。事实上也有相对于Hoeffding不等式来说更加严格的集中不等式。Bernstein和Benett不等式是非独立分布的,因为他们包含变化项。本文使用了Bernstein边界代替Hoeffding边界来进行决策树学习EBT,结果表明其准确度更高,计算耗费更低,而且鲁棒性更强。多数现有的分类技术都假设用于训练分类器的已标记数据足够大,然而这一假设不一定总是成立,原因是新型的科学与工程应用总是以惊人的速度产生着不断变化的数据。由于数据流固有的特性,新的概念将不断产生。因此,分类器的训练通常是缺乏足够多的已标记样本。另一方面,对领域专家来说,人工标记所有的数据也是不现实的。本文提出了一种基于网格聚类的封装器方法,用于标记新出现的训练数据。并在此基础上提出了一种基于有限标记数据的数据流分类算法LLSC。通过实验表明,在只有50%正确标记的训练集情况下,该算法也能达到和快速决策树算法VFDT同样的分类精度。由于LLSC算法需要利用单维网格的交集去确定一个特殊的网格,而该步骤的计算成本较大,从而导致LLSC存在训练时间较长的问题。为了进一步提高算法的分类效率,本文提出了一种改进的LLSC算法LLSC+1。该算法是一个基于哈希表的网格识别方法,并将半监督聚类技术引入到数据流分类中。相对于LLSC算法,改进的LLSC+1算法在保持较高的分类精度基础上,有效地提高了算法的分类效率,特别是在较高维的数据上,它可以减少一半多的计算开销。最后,本文进一步修改了LLSC+1中的基于网格的聚类策略,提出了一种以超椭球聚类形状表示类集的聚类算法。因为现有多数聚类算法都使用欧氏距离矩阵,这常常导致得到球状类集,而椭球相对于球来说更加的灵活。基于新近提出的HyCARCE算法,本文设计了一种新颖的超椭球动态数据流聚类算法HECES,其包含两个阶段:在线和离线阶段。在线阶段,算法是读取多维数据流进来,并且将其放入离散密度网格空间。用户定义时间窗后,椭球对各网格进行逼近,并将初始的椭球融合在一起形成最终的聚类集。这些椭球的融合是由马氏距离度量所决定。最后,具有较小基数的椭球将被删掉。相比于DenStream和CluStream来说,HECES的结果更好。此外,HECES的时间复杂度是D(N),使其更易于应用到数据流上。
其他文献
GIS作为计算机科学、地理学、测量学、地图学等多门学科综合的一种学科,其发展与其他学科的发展密切相关。近年来日益广泛的应用领域对GIS不断提高的要求,推动了GIS的迅速发
从美学、心理学角度对这首词进行新的阐释,又从文化背景、社会背景挖掘其深藏的底蕴,以期对这首词进行全面而深刻的理解。
<正> 春季卡他性结膜炎是一种过敏性结膜间质炎症,每逢春夏季节病势加剧。病变的特点在于结膜上皮的高度繁殖和结膜下结缔组织的高度增生,西医治疗多采取局部对症用药,以缓解
通过作者所做试验路以及相关课题研究成果,论证大厚度半刚性基层必须分层摊铺,分层碾压,并得出两次摊铺、一次成型的施工工艺,能保证层间结合状态良好,并在广西高速公路施工
为了对现有车身进行修改,并在此基础上进行改进,利用CATIA为工具,以实际汽车车身为对象,以B样条及NURBS曲面为曲面构造方法进行汽车车身曲面的重构,从而达到了汽车车身曲面光
大学英语四级考试有着很强的权威性与可信度,但其负面影响越来越突出,尤其是学生英语能力并没有根本上得到提高。本文从学生、教师、大学英语管理考核层三个方面来论述如何提
翻译是交流与沟通的纽带,随着高校教育国际合作与交流活动的日益频繁,教育外事翻译在高校国际化进程中发挥着越来越重要的作用。教育外事口译除具有口译的一般特点外,还具有其自
随着地理信息服务应用的拓展,越来越多的企业和组织将自己拥有的地理空间数据和软件功能开放为地理信息服务供人们使用,有效地促进了地理信息的共享和功能复用,也使得地理信息服
沥青路面的半刚性基层采用传统方法进行施工时存在不足之处,其中一个主要问题就是施工车辆容易造成半刚性基层的早期破坏。本文结合大量的室内试验数据,采用力学分析软件,对