【摘 要】
:
数据流上的密度估计可以获得数据流的分布情况及基本特征,为其它数据挖掘操作提供有价值的信息,因此这方面的研究日益为数据库界所关注。由于数据流具有数据量大和不断增长的特
【机 构】
:
复旦大学计算机科学与工程系,上海,200433
论文部分内容阅读
数据流上的密度估计可以获得数据流的分布情况及基本特征,为其它数据挖掘操作提供有价值的信息,因此这方面的研究日益为数据库界所关注。由于数据流具有数据量大和不断增长的特点,传统的核密度估计方法并不适合。本文提出了“增量估计”和“核合并”两种新技术,并在此基础上给出了一种新的估计数据流密度的DEODS算法。“增量估计”使得算法只需对数据进行单遍扫措,“核合并”保证了算法只需要固定大小的内存。我们在具有不同分布、不同数据顺序的数据流上对运行时间、误差率、输出结果能力等进行了一系列实验,实验结果表明,DEODS算法的运行时间与数据规模成线性关系,与传统方法相比,其估计结果的误差率是相当的,且算法能在处理过程中随时输出结果。
本文研究工作的出发点在于如何有效地处理数据流,并从中提取出有价值的信息。本文的工作集中于如何在对数据流上有效的计算估计密度函数。但是在很多场合中,只有数据分布的信息是远远不够的。所以我们正在进行在数据流上其他信息的挖掘和抽取工作,包括聚类、寓群点分析、中位数估计等等。
其他文献
通过研究对象状态的自动机表示方法,本文提出了商业逻辑对象处理的归一化建模方案,建立了对象状态相互关联的表示策略,克服了UML和FSM建模的对象缺乏横向联系的缺陷,同时用图直观
鉴于各种媒体存在着自身的特性,本文针对哈工大数字音乐图书馆(HIT-DML)主要实现对于音乐信息的获取、存储、管理和检索等功能,同时也作为我们的音频信息研究平台. 本文主
工作流引擎在工作流管理系统中具有核心的地位,负责工作流实例运行控制,即根据工作流定义阶段定义的工作流模型实现任务的调度与控制.目前,已有多种工作流的实现机制.本文提
目的研究TRL4-NOD2(T4N2)信号传递增强树突状细胞(dendritic cell,DC)抗结核分枝杆菌(MTB)感染机制,为结核病(tuberculosis,TB)的免疫防治提供参考。方法分别用TLR4配体LPS、
2004年6月以来,南京军区联勤部卫生部对军区所属医院和疗养院自筹资金部分的医疗器械实行网上招标采购,并在网上成功招标500余次,采购医疗设备价值近3亿元,节约经费约13%,
S
联机分析处理(OLAP)是数据仓库支持决策分析的关键.Cube存储数据仓库中OLAP分析使用的数据,是决策分析的基础.因而,Cube的存储、查询及维护一直是一个热点研究问题.Cube由称
海州常山(Clerodendrum trichotomum)又名臭梧桐,为马鞭草科、海州常山属落叶灌木,株高可达8米。原产我国河北、河南、山西及华东、华中等地。海州常山嫩枝和叶柄有黄褐色短
随着企业对电子商务应用的不断深入,越来越多的企业需要快速塔建工作流管理平台,而在企业业务发生变化时,如何低耗高效地快速扩展企业应用成为了瓶颈.本文提出基于服务器端构
视图实体化(materialize)是一种将视图所对应数据加以实际物理存储的技术.其目的是通过预计算来加快数据仓库系统对用户查询的响应速度.然而视图的实体化既需要占用可观的磁
和谐心理是大学生素质教育的基础,要实现大学生与自身、大学生与大学生、大学生与社会、大学生与自然的全面和谐,大学生必须要有和谐的心理.影响大学生心理健康的因素有应试