关系数据库上强相关项目对的挖掘算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:kelly_0810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则在商业中的广泛应用使得它成为数据挖掘中最活越的研究方向之一。然而,在传统的基于支持度的关联规则挖掘框架中,数据之间真正的关联可能会未被发现,与此同时可能还会产生太多不具有真正相关性的规则,已是一个众所周知的事实。基于此,统计关联已被越来越多的研究人员所采用,从而弥补关联规则的不足。近来,在交易数据库上的具有统计意义的强相关项目对的挖掘受到的一定的重视。在给定最小相关阈值θ和待挖掘的交易数据库的情况下,强相关项目对的挖掘问题是要找出所有的满足皮尔森关联系数不小于θ的项目对。 同时,由于大量的商业数据是存储在关系数据库中的,大部分的数据挖掘应用也是针对关系数据库的。因此进行关系数据库上的强相关项目对挖掘的研究,有着十分重大的理论价值和实际意义。 本文主要的研究内容包含两部分: 1) 为了在关系数据库上进一步减少候选项目对测试的代价,我们通过1NF的性质,对Taper算法进行改进,设计改进的TaperR算法,在挖掘过程中减少候选项目对的数目,从而提高算法的效率。实验结果表明,设计的新算法在进行关系数据库上的强相关项目对挖掘时,具有良好的效果。因此,更适合在实际的关系数据库系统中应用。 2) 为了有效解决关系数据库上的Top-K强相关项目对的挖掘问题,我们提出了基于阈值估计的Top-K强相关项目对挖掘算法,实验结果表明,新方法是行之有效的。
其他文献
随着宽带网络的飞速发展,流媒体已经成为互联网的主流应用。尽管SP/CSP网站提供的带宽越来越高,但用户对流媒体内容的访问速度仍然很慢。  仔细分析速度缓慢的原因,带宽不是导
铁谱技术是诊断大型柴油机磨损故障的重要手段。目前铁谱谱片磨粒识别工作主要由人工借助显微镜来完成。铁谱磨粒图像特征提取与识别的目标是结合传统的图像处理方法与神经网
论文以“四川省自学考试业务管理信息系统”项目为背景,介绍了项目中实施的数据传输系统Glide 的开发过程和方法。数据传输系统Glide 经历了基于FTP 和基于Web Service 这两
  为了适应市场竞争的需要,加强对经营分析和市场营销工作的支撑,江苏电信省公司启动了江苏电信省级经营分析系统工程建设项目,为江苏省电信公司统一制定业务发展策略和分析竞
随着网络应用的日益普及,网络的规模不断扩大,网络的复杂性也大大增加,这使得网络故障管理面临巨大的挑战。传统的网络故障管理采用管理者/代理的集中式管理模型,这容易在管
描述即主体对对象的客观写照,其发展不仅在人类文明进步过程中具有决定性的意义,而且也是整个计算机领域的中心议题。描述可深可浅,可抽象可具体,可指代可隐喻,耐人寻味,这也
多态的概念已被广泛地应用于工程、可靠性分析、面向对象程序设计、神经网络等多个领域中。本文在科学计算辅助建模领域引入多态的概念,用来表述复杂模型由于模型精度、计算
近年来,随着移动通信技术的发展和用户需求的增多,针对移动终端数据的空中下载技术成为了国内外研究的一个热点。空中下载技术是一种通过移动通信的空中接口对移动终端内存及
  本文针对4R树的上述局限,在深入分析时态变量语义的基础上,提出了4R树的改进模型——扩充的4R树双时态索引技术(Extended4R-trees,E4R树),这种扩充是非平凡的,涉及到模型设计
近年来,随着无线通信和全球定位系统(Global Positioning System, GPS)定位技术的发展,移动环境下的查询技术研究已经成为移动数据库领域的热点。而其中的移动对象K近邻查询