数据流频繁模式挖掘及数据预测算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:rocwingw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几年里,数据流广泛出现在传感器网络、金融证券管理、网络监控、Web日志以及通信数据在线分析等新型应用领域中。由于数据流中数据的规模一般都十分庞大、且增长迅速,因此,有限的存储空间中根本无法完整地保存数据流上的全部数据,这给数据流上的数据处理带来了巨大的挑战。此外,由于数据流数据的连续性与流动性,随着新的流数据连续到达,数据流所包含的知识信息总是在连续不断地变化。而对于实际的数据流应用而言,挖掘出数据流上知识的变化趋势往往比挖掘知识本身更为重要。因此,人们往往更希望挖掘出数据流上最近的某个滑动时间窗口内交易数据所包含的知识信息。挖掘数据流上的频繁模式在数据流的应用中有着重要研究意义,例如:在网络监控中,对应于异常流量的频繁模式可能意味着存在网络攻击或者网络拥塞;在商业销售记录中,频繁模式总是反映那些热门销售的产品以及它们之间的关联关系;而在传感器网络数据管理中,挖掘其中的频繁数据集可以有助于去估计那些丢失的数据值。然而,由于流数据的特点,传统的静态数据库挖掘方法不可能直接应用流数据的频繁模式挖掘,而必须研究新的数据流频繁模式挖掘方法。数据流上的频繁模式挖掘算法要求能够在单遍扫描流数据的基础上增量处理连续不断到达的流数据,并用尽可能小的代价维护数据流上最新的数据大纲。此外,随着新到达的流数据进入滑动时间窗口,窗口内最古老的历史数据将从窗口中移出而变得过期。为了消除历史流数据对当前挖掘结果的影响,数据流滑动时间窗口内频繁模式挖掘方法还需要定期删除数据大纲上维护的历史流数据的模式信息,从而提高模式挖掘的正确性。数据流最近的频繁模式挖掘方法应用模式树(RFP-tree)增量地维护数据流上新到达流数据所包含的模式信息,并周期性地对模式树进行剪枝,删除那些过期流数据所包含的模式分枝以及不频繁的模式分枝。RFP-tree以维护数据流上最近的不多于2N个流数据所包含的模式信息为代价,保守地维护了数据流上最近的大小为N的滑动时间窗口内流数据的全部频繁模式信息。方法还应用保守的计算策略计算模式在滑动时间窗口内的近似支持数,而由保守计算策略得到的模式的近似支持数总是不小于模式的真实支持数的,因此,方法总能够保证滑动时间窗口内模式挖掘的覆盖率达到100%。为了适应性维护数据流上大小可变的滑动时间窗口内的频繁模式,数据流任意大小滑动时间窗口内频繁模式挖掘方法应用滑动窗口树(SW-tree)增量维护数据流滑动时间窗口内的模式信息。同时,它还应用时间衰减模型衰减流数据所包含模式支持数的权重,并以此来区分新产生流数据与历史流数据所包含的模式。为了保证模式挖掘的覆盖率和精度,方法分析了时间衰减模型对模式支持数的影响,并给出了衰减因子在保证模式挖掘正确性条件下的边界值。并且,当滑动时间窗口的大小改变时,仅需重新设定合适的衰减因子的值即可重新保证在新的滑动时间窗口下模式挖掘的正确性。在实际的数据流应用中,由于流数据的连续不断变化导致流数据所包含的模式信息也在不断地变化,因此很难事先估计数据流上的频繁模式信息并给出一个合适的最小支持度门限。数据流滑动时间窗口内Top-K频繁模式挖掘方法提供了一个更加直接的挖掘数据流上频繁模式的方法。它无需用户提供最小支持度门限,而仅需用户提供预期的频繁模式集的大小K。它使用Chernoff边界理论估计窗口内第K频繁模式的支持度,并将其用于动态维护窗口内潜在频繁的模式信息。根据理论分析,Chernoff边界理论能够为模式挖掘的正确性提供了概率保证。研究数据流上的历史数据的变化趋势,并预测数据流在未来时间窗口内的可能值是数据流挖掘的一项重要工作。基于马尔可夫模型的数据流预测查询算法以实数数据流为例,通过将实数数据流上大小可能无限的流数据空间映射到一个有限的流数据状态空间中,从而将数据流上的流数据变化序列转变成为一个流数据状态变迁序列。通过使用数据流状态变迁有向图(SSTD)维护流数据状态变迁序列的统计信息,可以得到流数据状态变迁的概率矩阵,从而应用马尔可夫模型可以去预测数据流在未来时刻的可能值。
其他文献
随着计算机技术和互联网技术的快速发展和应用普及,数字产品的分发变得比以往任何时候都要便捷和简单得多。数字产品的版权也因此面临很大威胁。数字水印技术是近十几年来兴
工业计算机层析成像(Industrial Computed Tomography,ICT)技术是一种先进的无损检测技术,通过射线扫描物体获得投影数据,进而重建出物体断面图像(CT图像)和物体体数据(CT体
目的:探讨胰腺损伤的诊断和治疗方法。方法:回顾1991年-2007年收治的34例胰腺损伤的临床资料。结果:胰腺损伤Ⅰ度9例,Ⅱ度19例,Ⅲ度4例,Ⅳ度2例。单纯胰腺损伤7例(20.6%),合并其他
我喜欢边开车边听音乐。眼前,延伸的路;耳边,流淌的音乐。这种感觉,美丽,又有一丝淡淡的忧伤。
目的:探讨神经末端脑钠肽前体(NT-proBNP)在慢性阻塞性肺疾病(COPD)中的变化及其意义。方法:检测COPD患者、COPD合并慢性肺源性心脏病(肺心病)患者代偿期和失代偿期各80例全血NT-proB
牛仔迷你裙;“挥着翅膀”的胸针;Kitty猫闹钟;人形相架;绿色连衣裙。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:分析初产妇分娩疼痛时的心理状态,提出相应的心理护理措施,以减轻疼痛。方法:对326例初产妇分娩前后疼痛的心理反应进行观察、归纳和总结。提出相应的心理护理措施,包括建
论述了电视节目策划的重要性,提出了电视节目策划应遵循的原则。
就业是国民生存的根本,并且对维护社会稳定、加速经济增长有着重要的意义。"十二五"甚至未来更长一段时期,中国劳动力市场发展趋势将发生许多变化。经济发展,理论研宄空间扩