数据流上的变化的挖掘算法研究

来源 :大庆石油学院 东北石油大学 | 被引量 : 0次 | 上传用户:jueduizone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有关数据流上的变化的挖掘算法研究是近期数据流研究领域的核心内容之一。该文挖掘算法研究的第一部分:已有的研究工作大多数是针对模式、分类等的变化进行探索,其方法以及得到的结果的概念层次都比较高。该文提出了一种在相对较低的概念层次上挖掘“变化”的方法,对连续到达的数据流进行水库抽样以构建当前窗口,并利用基于熵的方法对当前窗口中元组的属性进行归约,参照窗口中的元组由用户或专家指定和更新,然后利用城区距离分别计算当前窗口中每个元组与参照窗口中特定元组之间的相异度,并根据获得的结果描述变化,最后,利用多个区间监测“变化”的变化趋势。经分析知该方法具有灵敏性和实时性,且挖掘的结果以及变化的趋势的描述形式比较简明。该文挖掘算法研究的的第二部分:提出了 NBCC 算法,首先利用精确抽样方法构建数据流的概要数据结构,然后借鉴经典朴素贝叶斯分类方法的思想,将数据流训练样本集分成 Ci类,i=1, 2,…, m,对数据流测试样本集设定一个阈值 α,当 P(X|Ci)* P(Ci)< α 时,即当测试样本 X 属于任何已知类别 Ci的概率都小于设定的 α 时,表明数据流上有变化发生,且保留该变化,记为新类 Cm+1。重复使用该方法挖掘数据流上的变化。该文挖掘算法研究的的第三部分:研究的重点是基于频繁项集的支持度和关联规则的新颖度连续挖掘数据流上的变化。主要贡献是:(1)在利用抽样技术所获得的以元组为单位的数据流上进行概要数据结构的构建,该方法可以进一步减小问题的求解规模;(2)通过计算和比较数据流上的当前窗口与参照窗口中频繁模式支持度以及关联规则新颖度来度量和连续挖掘数据流上的变化。分析表明,提出的数据流连续挖掘方法是合理的、可行的。该文挖掘方法研究的的第四部分:初步研究了最小描述长度原理在数据流问题上的应用。
其他文献
小波分析是一种优于传统信号分析方法的时频分析方法,由于同时具有时域和频域的良好局部特性及自动调节时频窗的特点,可以聚焦于被分析信号的任意局部细节,使其在许多领域获得广
随着互联网的日益开放以及网络技术的飞速发展,网络攻击行为也愈来愈严重,网络安全问题已经成为一个热门的话题,逐渐受到人们重视。传统的静态安全防御体系,如防火墙、身份认证及
随着计算机技术、网络技术的快速发展,分布式仿真在许多领域得到了广泛应用和推广。HLA是一个通用的技术框架,它提供了一种通用技术规范,要求建立一个高层次的仿真体系结构,
随着中国市场经济改革的不断深入和世界经济一体化程度的不断提高,中国的银行业将面临越来越激烈的市场竞争,为了适应新形势下银行经营管理的需要,企业信息化建设的直接目标
程序设计能力是衡量大学计算机专业学生能力和水平的一个重要标志。提高学生的程序设计能力,必须通过大量的编程练习。而教师及时评测学生的代码,并给出反馈,有着重要的意义。目
随着软件产业的不断发展,软件系统的规模和复杂度剧增,“软件危机”的隐患也日渐突出。研究表明,产生诸多问题的最重要因素不是编程,而是需求,因为需求提取、需求分析、需求验证等
本论文以皮革自动切割CAM系统为背景,以鞋样为主要研究对象,研究了图形的矢量化及检测技术,实现了闭合曲线的高精度矢量化,解决了项目中鞋样的精确匹配问题。 本文所作的主要
随着科技和经济的高速发展,信息技术带给人类的影响日益扩大,尤其是网络的发展使计算机的应用日益普及.同时也使得信息的安全问题日渐突出而情况也越来越复杂。信息安全的重要
随着数据库与互联网技术的发展,人们每天可以获得的数据及信息量呈指数级增长。为解决随之带来的如何从浩瀚的数据海洋中提取有用的知识以便为决策者提供决策支持的问题,数据挖
随着海洋事业的发展,水下传感器网络越来越受到关注。在海洋监测、海洋信息采集、灾难预防以及辅助导航等方面,拥有广泛的发展前景。水下定位问题作为水下传感器网络的关键部