加权关联规则挖掘算法研究及应用

来源 :天津师范大学 | 被引量 : 8次 | 上传用户:zlongtime
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘能够从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。关联规则挖掘是数据挖掘中的一个非常重要的研究方向,用于发现数据库中项之间的相互关系。从是否生成频繁项集的角度,可以将关联规则挖掘算法分两类:生成频繁项集的算法和不生成频繁项集的算法,分别以Apriori算法和FP-growth算法为经典代表,但是二者都没有考虑到数据库中项目的重要性不同。本文重点对项目加权关联规则算法进行了研究,主要工作和创新之处有以下几部分:首先,介绍了数据挖掘和关联规则的相关理论知识,重点对Apriori算法的基本思想进行了分析和改进,简述了其在web数据挖掘领域中的应用。其次,由于不考虑数据库中项目的重要程度,会产生无趣规则,因此为关联规则引入了项目加权思想,深入研究了几种加权关联规则挖掘算法和模型。分析出了现存的加权关联规则模型和算法的优缺点,详细阐述了改进算法的思想;第三,提出一种基于矩阵的加权关联规则的改进算法。通过一次扫描,将关系数据库存储转换为0-1矩阵的形式,减少了内存空间的占用;在对频繁(k-1)-项集进行连接运算前进行预剪枝,并且改进了剪枝策略;算法不产生候选项集,而是直接生成频繁项集;由于引入权值导致非频繁项集的超集可能是频繁的,所以单独考虑加权频繁2-项集的生成方式,不会遗漏加权频繁集;在生成关联规则时,引入了兴趣度约束。给出算法的伪代码和流程图,通过实例和实验说明了算法的可行性和优越性。最后,介绍了个性化推荐流程,将改进算法应用于知识点的个性化推荐领域。个性化推荐包含离线部分和在线本部分,该算法的优势主要体现在离线部分,节约了离线产生加权关联规则的时间。通过模拟实验证明了算法的可行性。
其他文献
近年来,女大学生的人数所占比例超过男大学生,女大学生在生理与心理上都有别于男大学生,对这一群体进行研究是非常必要的。性别意识和性别平等意识是性别社会化的重要内容。
目的对清远市清城区2004—2010年食物中毒的流行特征进行分析,为进一步预防和控制食物中毒提供依据。方法用回顾性流行病学方法对清远市清城区2004—2010年发生的食物中毒进
目的比较淡色库蚊自然品系对5种杀虫剂的抗药性,为合理选择有效的化学杀虫剂提供科学依据。方法采用药液浸渍法,测定四龄期幼虫的半数致死浓度(LC50);比较淡色库蚊自然品系对
本文通过对荣华二采区10
期刊
研究目的:以80只昆明种鼠为研究对象,进行为期8周的运动、白藜芦醇干预,观察运动、白藜芦醇对不同饮食条件下小鼠白色脂肪棕色化的影响机制,为不同饮食条件下的体重控制探索
初中数学是初中阶段的一门重要科目,是培养学生的思维能力和逻辑分析能力的主要科目.在新课改不断深入的背景下,初中数学教师不但要传授学生基本的数学理论,同时也要培养学生
针对青少年宗教信仰的影响因素,我国目前的实证研究尚不多见。本研究运用社会学、心理学和宗教学的方法和经验,采用量化与质化相结合的方法,通过问卷调查、田野调查的途径,从
党校工作条例回答了在改革开放历史新时期“办什么样的党校、怎样办党校”这个带有根本性的重大问题党校工作是党的工作的重要组成部分。1 The working rules of the Party
党委行使权力的过程与群众见面,即是让权力在阳光下运行 11名县(市区)委书记的“考分”一一当场公布,面对这从未经历过的事,兴奋弥漫了湛江市委8号楼,并通过直播即时传递到
武术段位制是中国武术协会制订并实施的一种全面评价习武者武术水平的等级制度。作为衡量技术水平等级的制度,其评分标准与方法是其中至关重要的一部分。武术段位制国家考试