无重叠条件下高平均效用序列模式挖掘

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:aulanb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘领域中的序列模式挖掘是一个研究热点课题,而且带有周期性间隙约束可以使得挖掘更具有针对性。其中,基于无重叠条件的序列模式挖掘问题与其他同类研究相比更具有研究意义。传统的序列模式挖掘只考虑模式在序列中的出现频率,忽略了外部效用对于模式的影响,这就导致一些出现频率低但是极为重要的模式被忽略而一些出现频率高但是影响程度不高的模式被发现。这不仅降低了挖掘效率,而且使用户的可用性降低。鉴于此,本文研究了无重叠条件下带有周期间隙约束的高平均效用序列模式挖掘问题(HANP-Mining),为了解决这一问题,本文提出了求解算法HANP-Miner。这种挖掘方法涉及两大核心问题:计算模式的支持度和高效的候选模式剪枝。在计算模式支持度时,深度优先创建网树并且在线搜索模式出现。在高效的候选模式剪枝中,提出了平均效用上界方法并结合Apriori性质的模式连接策略,从而有效地实现了候选模式缩减。理论证明,HANP-Miner不仅是完备性算法,而且时空复杂度均有所下降。大量对比实验显示,该算法不仅在挖掘能力和挖掘性能上有所提高,而且在实际生活中有更多的应用场景。本文主要研究内容和相关工作如下:1.本文研究了HANP-Mining问题,并对相关定义及性质作出详细的分析与说明。2.本文提出了一种新型的模式匹配算法DFOM,该算法采用深度优先的在线匹配策略,使用简化版网树结构,快速准确的计算模式在无重叠条件下的支持度,与当前同类算法NETGAP和Back Tr相比,时间复杂度和空间复杂度均有所降低。3.本文提出了一种有效的挖掘算法HANP-Miner,该算法利用平均效用上界满足向下单调性这一特征,采用模式连接策略生成候选模式,有效的缩减候选模式的数量,提高算法的总体运行效率。4.本文在DNA、病毒以及销售数据集上与多种挖掘算法进行实验从而证明了本文算法的高效性和准确性以及实用性。
其他文献
心脏作为人体循环系统的动力源,是一个集电生理学、动力学、血液流体力学以及神经、生化控制等于一体的复杂的综合系统,是人体中最重要的器官之一。根据世界卫生组织发布的数据显示,心脏病是全球头号死因。深入研究心脏解剖、运动等特性,对于心脏疾病的防治诊断具有非同寻常的意义。在实际的生活中,需要依靠医生在心脏核磁共振图像中进行勾画,勾画出心脏的轮廓。依靠手工勾画分割心脏轮廓是一件十分耗时的工作,同时传统方法在
学位
早产儿视网膜病变是一种发生于早产儿的未成熟视网膜血管的异常增生性疾病,是目前全球婴幼儿致盲的主要原因之一。目前该疾病常用的治疗方式有激光光凝术、玻璃体内注射抗血管内皮生长因子、冷冻疗法、玻璃体切割术等。不同治疗方法对患者屈光状态发展影响有差异。因此,本文旨在对早产儿视网膜病变治疗后患儿的屈光状态研究进展进行综述。
期刊
防范金融风险是国家审计保障经济社会稳定发展的重要抓手,如何协同多元主体治理更加复杂隐蔽的互联网金融风险值得研究。文章对照考察数字时代下的互联网金融风险防范瓶颈与国家审计能力建设,初步推测国家审计具备参与协同治理互联网金融风险的能力。基于金融脆弱性及其监管、国家审计免疫系统、协同治理等理论提出研究假设,并借用解释性案例印证国家审计主动参与协同治理互联网金融风险的合理性、必要性与可行性。国家审计能够综
期刊
报纸
在肺癌早期利用肺结节图像帮助医生完成肺结节的发现和诊断对于病患的病情控制有着非常重大的作用。在实际医学诊断过程中,肺部CT图像数量庞大,导致影像科医生的工作压力巨大,进而出现误诊漏诊问题。利用海量肺部CT数据的肺结节检索通过查找与待诊断结节图像相似的图像来完成辅助诊断给予医生诊断意见为上述问题提供了决策支持。本文基于卷积深度神经网络,针对不同的数据类型检索需求,提出了两种肺结节CT图像检索模型,并
学位
随着不同分辨率的显示设备数量的快速增长,图像和显示设备大小的不匹配问题使图像重定向方法成为计算机视觉领域的热点问题。内容感知图像重定向方法的主要目标是改变图像长宽比的同时保护图像中的主体对象,使变形尽可能发生在相对不重要的区域。但对于具有多个主体的图像重定向时会由于显著图的不准确造成主体对象的严重失真。同时,由于目前大多数算法并没有考虑图像重定向后的美学分布,生成的图像的美学结构容易受到破坏。针对
学位
行人再识别旨在从不同摄像头检索特定行人是否曾经出现,被广泛认为是一个图像检索的子问题。行人再识别技术面临着行人图像的分辨率变化大、拍摄角度不统一、光照条件差、环境变化大、行人姿态不断变化以及存在遮挡等严峻的挑战,是一个具有挑战性的课题。无监督的行人再识别技术不使用目标域图像的标注信息,其中的域泛化行人再识别能够在源数据集训练并直接在目标数据集进行测试,具有更广泛的实际应用意义。本文针对现有域泛化模
学位
<正>河南是中华文明的主要发祥地,物华天宝,人杰地灵,英才辈出。河南南阳的桐柏是淮河之源,也是革命老区,四大文化(盘古文化、淮源文化、佛道文化、苏区文化)与桐柏秀丽的自然风光相互融合,构成独具特色的桐柏文化。刘世忠,就出生在这块文化和英雄之地。凌寒独开暗香自来
期刊
学位
步入数字经济时代,越来越多的经济行为会以线上、虚拟的方式进行。在个人所得税征管中,涉税信息同样起到举足轻重的作用。一方面,涉税信息一直是税收征管能有效进行的基石,税收信息管理能力是税收征管能力的重要方面,在税收征管现代化的道路上,必然对税务机关的税收信息管理能力提出新的要求;另一方面,涉税信息主要以电子化、数据化的新形式呈现的,在此种新变化下,为保证税务机关能够获取足够的涉税信息,产生了税收信息管
学位