Web数据挖掘中加权关联规则算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yangzdh2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的数据集中提取隐含的、事先未知的、并且潜在有用的知识过程。随着Internet迅速发展,互联网上的数据越来越庞大。将数据挖掘的思想和方法应用到Web上,解决Web中遇到的一些问题,从而形成了Web数据挖掘这样一个新的研究方向。Web数据挖掘有很多研究热点,其中关联规则挖掘是Web数据挖掘领域研究的一个重要方面。本文首先对数据挖掘、Web数据挖掘和Web数据预处理等相关知识进行了阐述;然后研究了关联规则基本理论及关联规则经典算法;最后为了解决现实数据库中每个项目的分配不均匀性和重要性差异,重点研究了加权关联规则挖掘算法。深入分析了著名的加权关联规则挖掘算法——New-Apriori算法,发现了该算法中存在的问题。其一,New-Apriori算法进行项集连接有不合理之处;其二,需要重复扫描数据库来计算候选项集的支持计数,从而严重影响了算法的运行效率;其三,New-Apriofi算法没有对候选项集进行剪枝,这样会保留许多无用的候选项集。针对上述三方面问题,本文给出了一种改进的算法——WARDM(Weighted Association Rules Data Mining)算法。该算法对候选1-项集、候选2-项集及候选k-项集(k>2)地生成分别讨论,避免漏掉加权频繁项集;利用事务标识号集合来计算候选项集的支持计数,这样只需扫描一遍事务数据库,减少了数据库的扫描次数;根据加权关联规则的性质,在计算候选项目集时进行两次减枝,减少了候选项目集的数量。实验结果表明,新算法在时间上地消耗明显少于New-Apriori算法,有效提高了算法的效率;同时,新算法能有效减小候选顶集的规模。
其他文献
<正> 为了探索硫同位素组成变化的地质意义及其用于矽卡岩铜矿找矿工作的可能性,本所与中国科学院贵阳地球化学研究所合作,在最近两年中研究了二十多个矽卡岩矿床数目不等的
小飞蓬(Conyza canadensis)为菊科越年生或一年生草本植物,原产北美洲,目前在我国广泛分布,已成为一种常见入侵植物。为了揭示该外来入侵植物种群蔓延的生态学途径,进而对该
在2008年5月18日召开的第7届中国化妆品学术研讨会上,著名化妆品科学家T.Joseph.Lin博士从美国赶来,为大会作"国际化妆品趋势——绿色化妆品"的演讲,得到与会人士的高度评价,
改革开放以来,我国各级国家机关选派了大批干部出国培训,既培养了一批专业化的管理人才,也有一些出国培训的研究成果问世。但是也出现了诸如一些培训知识太浅显,许多培训知识
<正> 詹永明1957年生于杭州。他自幼就受到民族音乐的薰陶,在哥哥的影响下,九岁开始吹笛。十五岁考入浙江省艺术学校,师从著名笛子演奏家赵松庭先生。小詹从艺校毕业后被分配
期刊
以控制流域断面水质为目标,在排污权交易市场中引入交易比率,以解决排污权交易带来局部水质恶化的热点问题。以江苏省无锡市社渎港流域为研究区域,模拟该流域主要点源化学需
<正> 在药剂调配或分剂量工作中,必须进行称量的基本操作。这些操作正确与否会直接影响称量准确性及疗效,甚至能危害病人的健康和生命,所以必须加以重视。
<正>一、引言《英语课程标准》是编制教材词汇和考试说明词表的依据,美国当代英语语料库(COCA)是当今世界上最大的英语平衡语料库,词汇库容高达4.25亿(Davies&Gardner,2010)
<正>夏日的大地骄阳似火,何处寻觅彻底的清凉?即将在七月开业的青岛极地海洋世界,会是满足你体验冰雪极地的神奇乐园。在飞舞的雪花,漂流的浮冰中,享受冰山积雪的至凉酷感,体
多传感器信息融合技术已获得了普遍的关注和广泛的应用,其理论和方法已成为智能信息处理的一个重要领域,证据理论是主要的技术之一。在目标识别系统中,为了获得可靠的识别结