基于个性发现的兴趣度研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:sl604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘提取的知识可以表示为概念、规律、模式、约束、可视化。数据挖掘的任务是从数据中发现模式。通过对模式的分析及处理,可以得到人们感兴趣的知识。 关联规则的挖掘是数据挖掘中的一个重要部分,通过挖掘关联规则可以获得数据间隐藏的联系,这种联系往往是人们感兴趣的。现有的关联规则挖掘基本上分为两步:首先找出大于支持度阈值的项集,然后根据项集产生强关联规则。分析现有的关联规则挖掘算法中所存在的问题:首先是关联规则在其表达形式上没有考虑各种可能的反面示例的影响,因而导致知识表达功能的不够完善;其次是有可能一条规则即使可信度和支持度都很高,仍没有实际意义,甚至是误导性的。因此,人们又引进了兴趣度做为第三个阈值,并对兴趣度的定义和使用进行了广泛、深入的研究。 本文在介绍了数据挖掘和关联规则的概念及其相关知识,详细介绍了关联规则挖掘的经典算法Apriori算法的基础上,首先给出了基于个体的个性化形式表示方法,利用个性化形式表示方法可以对个体进行形式化表示,本文将该个体表示与信息论中的信息表示联系起来,使关联规则的支持度具有了基于个体的个性特点,这样利用该表示方法对个体进行关联规则挖掘,就会使所得到的规则更具有个体的个性化特点,更具有实际价值;其次,本文给出了基于信息差异的兴趣度,该兴趣度的定义考虑了事件及其对立事件产生的信息量差异,并利用信息化表示将规则的信息量差异表示出来,利用这种信息的差异量确定了兴趣度,并使用该兴趣度作为关联规则的阈值之一,其中,该兴趣度考虑到挖掘环境的影响,还分成了无条件和有条件两种情况,本文分别给出了无条件的基于信息差异的兴趣度和有条件的基于信息差异的兴趣度两种情况的兴趣度定义,并且给出了不同的性质和定理,使得该兴趣度使用起来更加灵活,应用范围更加广泛;最后,本文利用基于信息差异的兴趣度给出了一种关联规则挖掘算法,并对该算法进行了验证,效果良好。
其他文献
随着网络技术和企业信息化的普及和应用,计算机安全变得越来越重要。入侵检测是计算机安全体系结构中的一个重要的组成部分,入侵检测技术是对系统或者网络审计数据进行检测分
数字化、网络化、智能化现成为企业信息化建设和应用的主要形式,我国的船舶工业正面对来自业务和技术两方面的挑战,业务上从单一转向规模化,技术上从集中发展到分布。应用服
互联网的快速发展和经济的全球化使得软件已深入、广泛地渗透到人类社会的各个方面,软件系统的应用规模和复杂程度迅速扩大。同时,社会对软件的需求也与日俱增。当前,软件生产能
随着Internet规模的不断扩大、应用不断增多,网络已经深入到我们生活的各方面,给我们日常生活带来极大的方便。许多机构为了保护系统的安全性,采用了防火墙、入侵检测和病毒保护
随着Internet的迅猛发展,Web已经成为全球传播与共享科研、教育、商业和社会信息等最重要和最具潜力的巨大信息源。与传统的信息资源相比,Web上信息资源有着分布性、异构性、开
近年来随着网络技术和分布式计算技术的发展,使得将分散的、异构的计算资源有机地整合到一起形成计算网格成为可能。它能跨多个管理域组织或企业进行资源发现、资源管理、信息
运动细胞轮廓跟踪在细胞生物学领域有非常重要的应用价值,Snake模型由于其具有形变灵活和能够获得连续轮廓表达线的特性成为实现这一技术的主要方法。基本Snake模型在目标跟踪
Internet的发展使得Web网页开发也获得了很大的发展。当网络技术和分布式计算技术逐渐发展并走向成熟时,Web网页开发也变得非常复杂。Internet带来的最直接问题是Web网页的不
随着电子技术的快速发展,特别是超大规模集成电路的产生而出现的微型机,使现代科学研究得到了质的飞跃,而嵌入式微控制器的出现则给现代工业控制领域带来了一场新的革命。嵌
防火墙在保障网络安全方面至关重要,为了让防火墙满足当前网络的高速处理要求,和新协议新应用层出不穷的发展趋势,网络处理器被用作构建新一代高性能防火墙的硬件平台。然而传统