共享显露模式的挖掘算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lwsun_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式挖掘是数据挖掘领域的一个重要部分,为数据挖掘的任务包括分类、聚类、关联规则等奠定基础,显露模式(EPs)是一种新兴的知识模式,显露模式是那些来自于两个类中支持度变化幅度大的项集,所以具有很好的分类性能,对显露模式的研究是在一个数据集中的两个或多个类中进行的,而共享显露模式(Shared Emerging Patterns,SEPs)是两个数据集中相同和相似的显露模式,它表征一种共同特性,对应用在迁移学习和类推等领域有很大的潜力。本文主要针对SEPs的应用以及挖掘算法做了一系列的研究,主要工作和贡献包括以下几点:(1)研究SEPs的应用,提出一种利用SEPs来衡量数据集相似性的算法。该算法给出一种衡量SEPs质量的定义,结合SEPs的质量和数量来计算SEPs在数据集中的贡献,相当于量化SEPs的贡献,然后通过量化了的贡献评价数据集的相似性。实验结果表明,当在分类实验中选择相似的辅助数据,取共享知识量化成相似度后值大的,分类准确性比量化成相似度后值小的高,且不管辅助数据以任何比例和源数据组合都不影响实验结论。(2)针对SEPs挖掘算法中产生模式数量较少的问题,提出一种新的模式相似度衡量方法,该方法参考编辑距离衡量字符串相似度,用距离来衡量模式的相似度,但是不需要考虑模式的顺序。实验结果表明,该模式相似度衡量方法在其他条件相同的情况下产生的模式数量是之前算法的将近3倍。(3)针对SEPs挖掘算法的挖掘性能较低的问题,提出一种基于OSP-tree的挖掘算法,该算法采用排序模式树来存储数据集,减少在插入树时查找项所用时间,同时考虑到跳跃显露模式(JEPs)强大的分类性能,利用OSP-tree挖掘shared JEPs,在挖掘过程中加入剪枝策略,减少递归深度。实验结果表明,对于同一数据集,同一最小支持度阈值,同样挖掘shared JEPs,OSP-tree挖掘算法的时间耗费是sp-tree挖掘算法的将近2/3。
其他文献
我国正处在城市高速发展的阶段,社会经济的发展要求新增大量的建设用地,人地冲突严重。在快速城市化过程中,由于缺乏有效的控制机制和对城市发展、城市形态演变有序控制的技术保
随着多媒体技术在计算机领域内的高速发展和其在军事、医学、交通等方面的广泛应用,计算机视觉成为近年来一个备受关注的研究领域,它也促使了机器学习、人工智能、机器人等相
随着用户需求和开放的网络计算环境的不断变化,软件复杂性与演化要求也随之不断增强,实现Internet软件的自适应性和软件系统的动态演化对那些连续运行、安全攸关的应用有着重
目前,数字签名方案已经成为研究的热点和重点,其中的代理签名方案和盲签名方案更是研究较多的签名方案类型,将它们与备受关注的签密技术结合起来提出了许多盲签密方案和部分
对生物行为的研究能够启发新的计算方法、促进人工智能的发展。近10年来,一种名为多头绒泡菌的多核单细胞生物引起了众多科学家的兴趣,其智能行为也被广泛研究。多头绒泡菌具
随着信息时代的快速发展,其数据具有海量、异构、多样、动态变化等特性。面对这些海量数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。人们迫切需要强有力的数据分析工具从繁杂
随着云计算的提出与研究的不断深入,资源管理作为云计算研究的一个重要方面,也得到了广泛的关注。现有的研究从不同角度对具有QoS保障的云计算资源管理进行了阐述。然而,目前
近年来,城市交通堵塞问题和交通安全问题日趋严重,提高交通的舒适性和安全性已经迫在眉睫。车联网是一种在车载自组织网络(Vehicular Ad HocNetworks,VANET)等通信网络的基础上,
冠状动脉造影图像是冠心病的有效诊断依据,但却具有血管细节众多、造影图像亮度不均,血管与背景对比度差的特点,给医生的诊断和造影图像的后续处理带来了诸多不便。传统的血
近年来,许多机构倾向于使用数据仓库来满足日益发展的决策过程,以此来更好地实现自己的目标并满足客户的需求。在数据仓库的构筑中,作业量最大、日常运行中问题最多的环节是从业