流数据的频繁项挖掘及聚类的关键技术研究

来源 :南京航空航天大学 | 被引量 : 10次 | 上传用户：fakejay

【摘要】

：

随着信息技术的快速发展,流式数据以不同方式出现在了众多领域的应用之中。包括网络流量的监测、金融应用、通信数据管理、网络安全监控、传感器网络等等。在这些应用中,对新

【作者】

：

屠莉

【出处】

：

南京航空航天大学

【发表日期】

：

2009年01期

【关键词】

：

流数据数据挖掘频繁项滑动窗口时间衰减模型数据流聚类多数据流聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的快速发展,流式数据以不同方式出现在了众多领域的应用之中。包括网络流量的监测、金融应用、通信数据管理、网络安全监控、传感器网络等等。在这些应用中,对新型的流数据形式以及相关技术进行研究显得非常重要。因此,数据流上的数据挖掘成为当前数据挖掘领域的研究热点。当前对于数据流上的挖掘主要集中在:频繁项（集）挖掘、聚类分析、分类、异常分析等。本文分析了当前国内外各种流数据挖掘算法,针对数据流上的频繁项挖掘、单条及多条数据流上的聚类分析中存在的问题,提出了更为有效的算法。本论文的主要贡献如下:（1）现有大多数的数据流频繁项挖掘算法并没有足够强调当前数据的重要性。滑动窗是一种对最近一段时间内的数据进行挖掘的有效技术。因此,我们提出了一种基于滑动窗的流数据频繁项挖掘算法。该算法采用了链表队列策略得以大大简化算法,从而提高了挖掘的效率。对于给定的阈值S、误差ε和窗口长度n,算法可在εn的误差内检测窗内频度超过Sn的数据流频繁项,且其复杂度为O(ε^-1),处理和查询每个数据项的时间均为O（1）。在此基础上,我们还将该算法进行了扩展,通过参数的变化得到不同的流数据频繁项挖掘算法,使得算法在时间和空间复杂度之间可以进行调节。通过大量的实验证明,本文算法比其它类似算法具有更好的精度及时空效率。（2）通过强调近期数据而弱化“旧”数据重要性的时间衰减模型,提出了流数据频繁项挖掘算法FC1及其改进的算法FC2来检测数据流上ε-近似频繁项。FC2算法的空间复杂度为O(ε^-1),每个数据项的处理时间为O（1）。通过大量的实验证明,FC2比其他类似方法有较高的正确率,较快的处理速度以及较少的内存需求。接着,提出了一种更加简洁快速的挖掘数据流频繁项的λ-Count算法。算法可以在O（ logλε）空间复杂度下,检测ε-近似频繁项,对每个数据项的处理时间为O（1）。通过大量的实验证明,λ-Count在正确率、内存要求和处理速度上都优于其他类似方法。（3）大多数现存的实时流数据上的聚类算法如CluStream等,都是基于k-means算法的。这些算法在挖掘任意形状的聚类以及处理孤立点问题上都存在难度,而且这些算法需要先验知识来确定聚类的个数k以及用户定义的时间窗口长度。为了解决这些问题,我们提出了一种基于密度的流数据聚类算法框架D-Stream,并相继提出了基于此框架的算法DS0和引入吸引度策略的算法DS1。通过探索衰减系数、吸引度、数据密度以及聚类结构之间的潜在联系,算法可以有效地生成聚类并进行实时调整,探测并移除那些由孤立点映射的奇异单元格来动态地提高系统的空间和时间效率。实验结果证明,算法具有较高的质量和效率,可以准确地反映实时数据流的进化过程。（4）多数据流聚类的研究通常都是利用欧几里德距离来衡量数据流间的相似性。而欧几里德距离具有很大的局限性,它忽略了数据流的变化趋势和序列模式。而对用户来说,这些信息往往更加重要。为此,我们提出基于Kendall相关系数的多数据流聚类算法。该算法利用AU统计量将多数据流的原始数据快速压缩成一个统计概要。根据这些统计概要可增量式地计算Kendall相关系数来衡量数据间的相似度。我们还提出了一种动态的k-means算法来生成聚类结果。动态的k-means算法可动态、实时地调整聚类数目,及时检测数据流的发展变化。算法被应用到按照用户要求的聚类问题（COD）,使用户可在任意时间区间上查询聚类结果。通过一种合理的时间片断划分机制,可使用户指定的任意时间区间都可以由这些时间片断组合而成。实验结果证明,算法比其他类似方法具有更好的聚类质量、速度和稳定性,能实时地反映数据流的变化。

其他文献

长春地辛组成CHOP方案治疗非霍奇金淋巴瘤临床观察

为了观察长春地辛 (vindesine ,VDS)或长春新碱 (vincristine ,VCR)组成CHOP方案治疗非霍奇金淋巴瘤 (non hodgkin’slymphoma ,NHL)的疗效及毒副反应 ,将 46例NHL患者随机对

期刊

长春地辛/治疗应用长春新碱/治疗应用淋巴瘤非霍奇金氏/药物疗法药物疗法联合

QDⅡ热的冷思考

国内股市行情走弱,债券违约风险处于释放窗口,美国逐步进入加息周期,人民币汇率波动,叠加深港通的开放,全球资产配置需求上升等因素的综合作用,公募QDⅡ基金近期大热,根据官

期刊

资产管理规模股市行情人民币汇率投资能力全球资产官方数据QD发行额度择时能力另类投资

引导学生做社会规则的积极遵守者——怎样教好“遵守社会规则”

<正>部编《道德与法治》八年级上册第二单元"遵守社会规则",以"社会规则"为主题,由第三课"社会生活离不开规则"、第四课"社会生活讲道德"和第五课"做守法的公民"组成,说明了

期刊

引导学生社会规则文明礼貌维护合法权益社会公共生活单元教学法治观念法律条文注意指向价值引领

基于UVM的功能覆盖率驱动SDIO IP验证

在研究SDIO接口协议的基础上,采用以功能覆盖率驱动的验证方法和UVM验证方法学,构建了一个完整的SDIO IP验证平台。在自测试仿真实验中,通过各种测试用例,最终实现了功能覆盖

期刊

SDIOUVM功能覆盖率验证

小肠出血性疾病的病因及诊治进展

期刊

出血性疾病小肠出血推进式小肠镜手术探查术中内镜胶囊内镜隐性出血

难民丛林

在航拍镜头下,几十座白色的房子仿佛积木般密密麻麻坐落在法国加莱附近,这里是临时难民营地。据官方表示,此前有7000人居住该难民营里,而各慈善机构公布的数字则接近1万。受

期刊

中东地区英法社会问题

以人为本、做好离退休人员的“服务生”

离退休干部是一个非常特殊的群体,做好离退休干部工作不仅是一项神圣光荣的事业,也是全体离退休管理工作者的最终目标。作为从事离退休管理工作近10年的工作者,笔者认为,对企

期刊

以人为本离退休干部服务管理

基于遗传算法的决策空间离散分布约束优化问题研究

本文将工程优化调度问题中,被优化对象不能在某些特定区间内取值的要求,建模为待优化数学问题的决策变量定义区间不连续约束条件。针对该约束条件引入后,优化问题的决策空间

学位

决策空间遗传算法约束处理不可行解解修补方法

混凝土电阻率监测和基于电阻率的混凝土性能表征

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

四电极混凝土电阻率传感器性能表征

追寻那会飞的稻谷——泰国侗台语族群谷种神话搜集纪略

侗台语族先民是世界上最早种植水稻的族群之一,他们对谷魂的信仰及其相关叙事根深蒂固。至今侗台语各族群依然保持了参差妙曼的谷魂崇拜形态,传承着丰富的谷种神话,从中国的

期刊

泰国侗台语族群谷种神话谷魂信仰跨境文化

流数据的频繁项挖掘及聚类的关键技术研究

与本文相关的学术论文