【摘 要】
:
现如今的数据中,越来越多的数据以数据流的形态存在,例如金融交易信息数据、网页浏览数据、气象监测数据、电商购物数据以及各类传感器探测数据等。在这庞大的数据流中,相当一部分数据因为数据源更新、环境噪音、数据复写或者冲突以及传输设备故障等原因导致数据的缺失,从而形成了所谓的不确定数据。现有的单一针对确定数据流或者不确定数据库的挖掘算法无法直接应用。因此,设计面向不确定数据流的高效频繁模式的挖掘算法就极为
论文部分内容阅读
现如今的数据中,越来越多的数据以数据流的形态存在,例如金融交易信息数据、网页浏览数据、气象监测数据、电商购物数据以及各类传感器探测数据等。在这庞大的数据流中,相当一部分数据因为数据源更新、环境噪音、数据复写或者冲突以及传输设备故障等原因导致数据的缺失,从而形成了所谓的不确定数据。现有的单一针对确定数据流或者不确定数据库的挖掘算法无法直接应用。因此,设计面向不确定数据流的高效频繁模式的挖掘算法就极为必要了。本文基于现有的频繁模式挖掘算法以及不确定数据流的应用环境,展开了以下工作:(1)提出一种基于列表存储结构的不确定数据流挖掘算法UFS-mine。该领域现有的主流算法几乎均以前缀树结构存贮模式信息,只有数据项相同且概率也相同的节点才能共享分支路径,导致形成大量冗余节点,极大的消耗了内存。而且在整个挖掘过程中,会频繁的对整棵结构树进行遍历,时间开销巨大。为了解决这些问题,在依托滑动窗口模型的条件下,本文提出了基于列表存储结构的不确定数据流挖掘算法UFS-mine,该算法将所有独特的数据项信息均存储在列表中,每个数据项都对应着自己的概率信息以及存在事务的编号,避免产生冗余节点,节省了内存,对于相应模式的期望统计也更加快速,从而大幅度的提高了算法的性能。(2)提出一种加权衰减的不确定数据流挖掘算法DWUFS-mine。在大多数挖掘不确定频繁模式的过程中,通常只是简单将模式包含的元素的概率相乘来计算期望,没有考虑到不同元素的权重问题,随着时间的推移,数据的价值也会逐渐的降低,新鲜的数据比旧有的数据更具有参考和研究价值。因此,本文在UFS-mine算法的基础之上,提出一种加权衰减的不确定数据流挖掘算法DWUFS-mine。该算法能够兼顾数据不确定性和权重属性,并且对于旧的数据,根据预设的衰减因子降低其期望,实验证明该算法能够有效的运用于注重数据权重且对新鲜信息更加敏感的应用场景。
其他文献
本文提出了一种运用 EXCEL 2000快速计算换热器的方法,可快速、反复、精确计算换热器的各种参数,分析各种参数对换热性能的影响。本文还同时给出了大量具有指导意义的计算结果。
《诗经》是我国第一部诗歌总集,也是儒家经典之一。《诗经》中的怨刺诗,尤其是政治怨刺诗是我国忠谏传统的思想层面的源头之一,而我国历朝历代沿用的谏诤制度,是忠谏传统的现
电磁脉冲具有陡峭的前沿及较窄的宽度,覆盖较宽的频带,能通过各种耦合途径使电子元器件、线路和设备受到严重的电磁干扰和破坏,因而,电磁脉冲及其工程防护的理论和技术仍然是
本主崇拜是剑川地区占主导地位的民间宗教信仰,是当地白族人民在长期的社会生产生活中形成和发展的独特文化。在其发展过程中因受到外来文化的渗透和影响而呈现出民族文化多
本文依据汽车钣金维修的技术特点,探讨3D打印技术在汽车钣金维修领域的应用前景,研究3D打印技术与汽车钣金维修深度融合所产生的优势与效益。一、概述3D打印技术是一种以数字
本篇论文主要用解构的方式来探究日本作曲家久石让的电影音乐作曲风格,从久石让与两位在日本电影界执牛耳的导演合作的电影入手,分别在研究久石让旋律写作的技巧,和声编配的
文章提出将耕地质量等别监测成果应用于耕地质量重点保护区和耕地质量重点提升区划定的方法,并在阐述确定耕地等别限制因素及其限制系数计算方法的基础上,将耕地限制类型与中
建立完善有效的人力资源招聘与培训管理体系,已经成为当前企业人力资源管理的关键所在。本文针对企业人力资源招聘与培训管理有关内容,首先简要介绍了人力资源招聘和培训的相
永磁同步电机具有体积小、重量轻、效率高、性能好等一系列优点。随着高性能永磁材料的发展与电机制造技术的进步,永磁同步电机在电气产品、交通运输、工业以及国防等领域得
长期以来,由于多种原因,我省农业基础设施脆弱,人均占有农业资源短缺。如何从资源节约型、环境友好型方面探索新路子是许多农业专家的一个重要课题。本文依据2000—2005年陕