基于有序复合策略的数据流最大频繁项集挖掘

来源 :情报学报 | 被引量 : 0次 | 上传用户:yao252373
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
挖掘最大频繁项集的优势在于得到的项目数量较少。相比频繁项集和频繁闭合项集挖掘算法,此类算法具有较高的时间和空间效率。根据数据流的特点,结合滑动窗口,提出一种基于有序复合策略的数据流最大频繁项集挖掘算法(E-FPMFI)。当数据流流过时,以基本窗口为单位,更新获取数据流片段信息,单遍扫描片段信息得到频繁项目并存储于频繁项目列表内。算法的核心思想:构建有序FP-tree,采用混合子集剪枝技术削减搜索空间,合并同一分支中支持数相等的邻接结点,压缩生成有序复合FP-tree,挖掘最大频繁项集时避免超集检验。经实验
其他文献
讨论了面向毫米波缝隙天线集成制造应用的三维非硅微加工技术方案,重点解决多种材料兼容、多层复杂微结构集成和大悬空高度等独特难题。针对天线器件中金属和介质材料的结合,
本文指出了普赖斯的连续型信息资源分布模型实质上是在文献总数与作者总数成正比这一假设下建立起来的。其不足之处是没有考虑到现代信息传递手段和信息获取的现代工具等诸多
企业竞争情报绩效是衡量企业竞争情报工作成败与否的重要依据,越来越受到企业管理者的关注。研究竞争情报绩效对于提高企业竞争情报工作效率、加强竞争情报工作管理具有重要意
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向.本文介绍了当今世界上较先进的"变换支持向量机"(TSVM
非相关文献知识发现是Swanson教授提出的一种情报学方法,用于挖掘隐藏在文献之间的隐秘联系。其知识发现过程包括两部分:开放式知识发现过程和闭合式知识发现过程。开发式知识
本文结合搜索引擎的特点,采用网上特尔菲法进行专家调查以确定搜索引擎评价的各项指标,并利用基于指数标度的层次分析法确定各项指标的权重,从而构建搜索引擎评价指标体系.在
Web用户聚类是指用聚类算法产生用户会话的聚类,是电子商务中的一个重要问题。该问题的难度在于有成千上万的会话需要聚类,而且每个会话都可描述为一个高维向量。此外,该问题就
在电子商务中,协同推荐技术能够帮助用户发现感兴趣的东西。在协同推荐中,通常采用最近邻居的方法来产生推荐。随着商品数量的增多,协同推荐所需要的数据集也越来越稀疏,可用
副猪嗜血杆菌病是由副猪嗜血杆菌(HPS)引起的严重接触性传染病。以多发性浆膜炎、关节炎和高死亡率为特征,严重危害仔猪和青年猪的健康。此菌有15个以上血清型,其中血清型5、4、1
颜色是一些Web资源的重要属性,颜色本体对基于颜色匹配的语义检索起着重要作用。为了实现汉语颜色知识的大范围共享与重用,本文结合语言学与本体理论构建汉语颜色词本体。通过