滑动窗口中的变化检测

来源 :第二十二届中国数据库学术会议 | 被引量 : 0次 | 上传用户:Lynn_lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要工作是对Velocity Density Estimation算法进行分析,针对其中的一些需要改进的问题,提出相应的解决方法,包括采用滑动窗口模型的计数方式,对数据流中的变化区域进行动态跟踪检测等.算法的有效性通过实验进行了验证.
其他文献
本文提出在VLAN上设计和实现分布式数据库系统的方法来解决多子系统的信息整合和安全性差的问题,并给出实际实例的设计和实现.
本文通过对数据网格系统GridDaen进行研究,结合该系统面临的问题和解决的实际情况,并利用XML数据格式的优势,提出了解决原有系统用户视图构造的新方法.通过具体的实验数据,可以得出改进的方法对系统的性能有较大的提高.当然该方法是在GridDaen系统中得到实现和测试的,以后可以将该方法用于其他的环境.同时本文也没有讨论通过XML转换语言XSLT来进行数据转换.
本文提出了一种有效基于范例推理的基于网格和密度的聚类算法,利用范例相似性确定选择和主题相似性大的数据维度,在所选择的数据空间中利用一个典型的基于网格和密度的聚类算法进行聚类分析,从而使聚类分析准确有效.本算法的不足之处在于寻求如何对算法需要的输入参数ξ和τ提供系统支持.从算法的特点来看,在算法的整个执行过程中τ的值不宜保持不变,因为随着算法的递归运行,当前考虑的子空间维数的增加,数据空间被划分成了
本文第2节介绍相关技术背景,包括相关产品、标准、元数据和CWM简述.第3节介绍了CDMS的系统结构,并就其中的重要技术进行详细描述.结论和未来的工作方向在最后介绍.
本文第2节介绍了强关联规则、概念格和闭项集的基本概念;第3节提出一种在概念格上挖掘极小规则产生集的算法;第4节给出了用产生集推导出其它规则算法的证明;第5节给出一个实例;最后总结全文.
决策规则的挖掘是数据挖掘的内容之一,现行的算法主要是用决策树或粗糙集进行挖掘,但是它们的计算复杂度非常高.本文基于粗糙集中的不可分辨的思想,设计了一种算法,通过逐渐判断属性值的重要性来选择属性值构造决策树的分支,最后用规则拟合的思想对在决策树上得到的规则进行整理,得到最终的决策规则.该算法与ID3算法在结果上是等价的,但是其计算复杂度低,适合于大型数据库的挖掘.
Apriori算法是关联规则挖掘最有影响的算法之一,本文提出的该算法关键在于结合领域知识,即商业领域用户关注的焦点利润,经过频集产生过程中的多次剪枝,产生那些满足用户利润要求的规则,不仅能挖掘出满足指定支持度阈值的关联模式,而且能挖掘出置信度很高的稀有数据的关联模式,即就是支持度低于支持度阈值但项集利润高的那部分规则.该算法可并行运行,因而也适于大型数据库的处理.
本文提出了一种动、静态信息区分设计的方法:首先将业务规则分析、归类,并将所获得的数据信息区分为静态信息和动态信息;围绕动、静态信息采用不同的建模方式,最终形成了具有较高业务表达能力的数据库概念模型.本文的动、静态信息区分设计为数据的抽象提供了一种可行的方法.
为了实现数据资源命名的透明性,网格需要有效管理数量繁多的名字和属性以及它们之间的关系;为了实现定位的透明性,网格需要有效管理数据集的定位信息;为了实现协议的透明性,网格需要有效管理数据资源的有关信息.本文对基于全局命名的数据网格环境下元数据的目录管理进行了分析与研究.
本文特别针对实际中处理的数据的误差,即"数据中的噪声",提出了两种新的约简概念,即ε-分布协调集和ε-误差分布协调集并讨论它们的性质、判定定理和约简的求法,并将它们加入到已有的经典无噪声的约简方法中,在文章最后给出了它们的关系图.