论文部分内容阅读
有关数据流上的变化的挖掘算法研究是近期数据流研究领域的核心内容之一。该文挖掘算法研究的第一部分:已有的研究工作大多数是针对模式、分类等的变化进行探索,其方法以及得到的结果的概念层次都比较高。该文提出了一种在相对较低的概念层次上挖掘“变化”的方法,对连续到达的数据流进行水库抽样以构建当前窗口,并利用基于熵的方法对当前窗口中元组的属性进行归约,参照窗口中的元组由用户或专家指定和更新,然后利用城区距离分别计算当前窗口中每个元组与参照窗口中特定元组之间的相异度,并根据获得的结果描述变化,最后,利用多个区间监测“变化”的变化趋势。经分析知该方法具有灵敏性和实时性,且挖掘的结果以及变化的趋势的描述形式比较简明。该文挖掘算法研究的的第二部分:提出了 NBCC 算法,首先利用精确抽样方法构建数据流的概要数据结构,然后借鉴经典朴素贝叶斯分类方法的思想,将数据流训练样本集分成 Ci类,i=1, 2,…, m,对数据流测试样本集设定一个阈值 α,当 P(X|Ci)* P(Ci)< α 时,即当测试样本 X 属于任何已知类别 Ci的概率都小于设定的 α 时,表明数据流上有变化发生,且保留该变化,记为新类 Cm+1。重复使用该方法挖掘数据流上的变化。该文挖掘算法研究的的第三部分:研究的重点是基于频繁项集的支持度和关联规则的新颖度连续挖掘数据流上的变化。主要贡献是:(1)在利用抽样技术所获得的以元组为单位的数据流上进行概要数据结构的构建,该方法可以进一步减小问题的求解规模;(2)通过计算和比较数据流上的当前窗口与参照窗口中频繁模式支持度以及关联规则新颖度来度量和连续挖掘数据流上的变化。分析表明,提出的数据流连续挖掘方法是合理的、可行的。该文挖掘方法研究的的第四部分:初步研究了最小描述长度原理在数据流问题上的应用。