无重复投影数据库扫描的序列模式挖掘算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:z445786864
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘在Web点击流分析、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用.基于频繁模式增长的PrefixSpan是目前性能最好的序列模式挖掘算法之一.然而在密数据集和长序列模式挖掘过程中会出现大量的重复投影数据库,使得这类算法性能下降.算法SPMDS通过对投影数据库的伪投影做单项杂凑函数,如MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,并采用一些必要条件简化投影数据库的搜索,进而提高算法的性能.实验和分析都表明SPMDS性能优于PrefixSpan.
其他文献
Quotient Cube和QC—tree试图在浓缩一个数据立方尺寸的同时,保持该数据立方蕴涵的语义,但是,前者没有语义关系的存储,后者存储的语义关系是晦涩模糊的.为此提出了下钻立方结构,首
调度节点轮流工作可以有效延长网络寿命,然而现有的调度协议大部分需要地理位置信息,引入了额外的负担;一些不需要地理位置信息的节点密度控制算法又无法保证有效的网络覆盖度.此
笔式用户界面是Post-WIMP界面的一种重要形态,有自然、易学、易用等潜在性优点,但是在开发笔式交互系统时,以应用为中心的设计方法无法保证笔式用户界面继续拥有这些优点.为此,首
k-means聚类是聚类划分中应用最广泛的一种方案,但是现在许多关于此问题的研究并没有给出近似比为常数的算法.给出了一个随机算法,该算法通过以不同概率选取初始k个点,保证了
如何通过调整形状参数修改曲线形状是计算机辅助几何设计中一个有意义的研究课题.为了有效地利用形状参数来调整曲线的形状,增强修改曲线的灵活性,研究了5种带形状参数B样条曲线
为了提高在同一数据流上同时计算多个连续极值查询(MAX或MIN)时的处理能力,对查询间资源共享技术进行了研究.提出了一种称为"关键点集"的裁剪策略,系统仅需保存少量数据即可满足
目的观察扶正减毒方防治非小细胞肺癌化疗所致骨髓抑制的临床疗效。方法采用完全随机化方法,将120例非小细胞肺癌患者分成治疗组(扶正减毒方加化疗组)和对照组(单纯化疗组),
能有效抵抗信号处理又能抵抗几何攻击是当今数字水印研究的热点和难点之一,提出一种能够抵抗信号处理、旋转、缩放和平移的鲁棒视频水印.嵌入方案中,提出几何不变量——基于