一种基于动态自适应数据窗口的模糊k-均值聚类缺失数据估算算法

来源 :NDBC2009第26届中国数据库学术会议 | 被引量 : 0次 | 上传用户:rangdeqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
完整性是数据质量的一个重要维度,由于数据本身固有的不确定性、采集的随机性及不准确性,导致现实应用中产生了大量具有如下特点的数据集:1)数据规模庞大;2)数据往往是不完整、不准确的.因此将大规模数据集分段到不同的数据窗口中处理是数据处理的重要方法,但缺失数据估算的相关研究大都忽视了数据集的特点和窗口的应用,而且固定大小的数据窗口容易造成算法的准确性和性能受窗口大小及窗口内数据值分布的影响.假设数据满足一定的领域相关的约束,首先提出了一种新的基于时间的动态自适应数据窗口检测算法,并基于此窗口提出了一种改进的模糊k-均值聚类算法来进行不完整数据的缺失数据估算.实验表明较之其他算法,不仅能更适应数据集的特点,具有较好的性能,而且能够保证准确性.
其他文献
根据OLAP查询的特点和内存数据库的性能特征提出了由多个内存数据库组成的并行OLAP查询处理系统,将OLAP应用中的多维聚集查询分布到各个计算节点并行进行聚集计算并将聚集计算的结果进行合并输出.与其他并行处理方法相比,该算法充分利用OLAPDB结构中维表远小于事实表的特性,根据数据库中事实表的数据量和节点的数据处理能力进行水平数据库分片并根据聚集函数的可分布计算特性,提高查询处理的并行度,延迟并行
频繁项集挖掘是数据流挖掘中的一个热点问题.提出了一种新的数据流频繁闭项集挖掘算法MFCI-SW.首先设计了两个新的数据结构:频繁闭项集表FCIL和频繁闭合模式树MFCI—SW—Tree,在此基础上以滑动窗口中的基本窗口为更新单位,在每个基本窗口中提取出频繁闭项集的数据项,将其支持度F和窗口序列号K存到FCIL中;然后随着新基本窗口的到来,通过删除频繁闭项集表中K值最小的数据项和插入新数据项完成对F
对基于表面属性的三维模型检索进行研究,提出了基于面积颜色分布、基于球面颜色分布、基于颜色球面调和的三维模型检索方法以及基于表面属性的融合方法.通过对模型表面进行按面积均匀采样来获取其颜色分布信息后形成基于面积颜色分布的特征.通过对模型进行均匀球面采样获取颜色分布信息形成基于球面颜色分布的特征.通过首先将模型表面颜色信息按等经纬度球面采样映射为球面函数,然后对其进行球面调和变换形成颜色球面调和特征.
在分析层次工作流建模和工作流执行时互操作研究的基础上,设计了一个基于代理的邦联及子流调用框架,将层次化建模技术、流程互操作技术和异构数据模型映射和转换技术集成在一起,同时提供了异常处理和灾难恢复功能,真正从业务层次上解决了流程协作问题,并在TiPLM2.9上实现了该解决方案.流程实例之间通过代理进行交互,各个流程独立运行在自己的工作流引擎中,实现了松耦合和隔离性,增强了系统健壮性.
传统工作流系统在对任务节点进行资源分配时,只进行了组织、角色、人员的分配,而较少对不同任务节点上执行人间的潜在关系进行建模.根据企业的实际应用需求,将这种潜在的约束关系提取出来进行建模,并以规则的形式进行定义.最后采用强有力的推理工具——规则引擎——来完成对定义的规则冲突检测以及规则的实现.
深层网数据库的访问方式主要是通过查询接口,所以查询接口是外部访问深层网数据库的门户。为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,提出基于本体的深层网查询接口集成方法.首先构建领域核心本体,在模式匹配过程中,不断完善核心本体;然后,以本体作为媒介,在不同查询接口模式间建立属性映射关系,发现属性间的语义关联;最后,根据本体概念出现的频数生成集成接口.实验表
近年来,基于图形处理器的通用计算获得了广泛关注,并在多个领域取得了进展.内存OLAP减少了磁盘I/O,但基于单核或多核CPU的计算能力及cache miss成为新的性能瓶颈,从而无法保证好的效率.而图形处理器由于其众多核和高带宽能够很好地适应OLAP计算特性.通过图形处理器来加速任一cuboid的计算,从而提高整个内存OLAP系统的性能.提出了基于图形处理器的分块并行算法,并对算法进行了优化及讨论
skyline查询是数据挖掘一个重要的研究方向,在基于数据的决策支持等应用中有着重要的作用.由于现实应用中存在着大量的不完整数据流,但大多数现有的skyline查询算法都依赖于如下的假设:1)任意数据点的所有维度值都是已知的;2)数据集是稳定、有界的并且可以随意访问.此外,随着数据维度的增加,skylime数据点的个数会变得过多,因此引入了k-支配skyline的概念,但是不完整数据的k-支配关系
随着计算机网络的快速发展,网络上的信息量也日益纷繁复杂.如何准确、快速地帮助人们从海量网络数据中获取所需信息,这是目前搜索引擎首要解决的问题,为此,各种搜索排序算法应运而生.但是目前,网页信息的表达形式都十分简单,用户描述查询的形式更是十分简单,这就造成了在判断网页内容与用户查询相关性时十分困难.首先对现有的搜索引擎排序算法进行了分类总结,分析它们的优缺点.然后提出了一种基于用户反馈的语义标记的新
数据流挖掘已在许多领域得到应用,概念漂移检测是数据流挖掘研究中的一个重点.目前关于数据流中的概念检测的研究虽然取得了很多成果,却没有充分考虑到数据流概念“周期性”出现的特点.针对周期性概念漂移的特点,提出了当“历史概念”重现时,利用对应的模型来对数据流进行分类的方法,从而减小模型更新的代价,加快分类预测的速度.实验证明这种方法提高了运行效率.