【摘 要】
:
随着计算机科学的发展和人类文明的进步,网络的发展越来越迅速,通过网络传播的大量数据由此产生。如何从大量的数据资料中找到隐含的有用信息也成为了研究的关键,数据挖掘作
论文部分内容阅读
随着计算机科学的发展和人类文明的进步,网络的发展越来越迅速,通过网络传播的大量数据由此产生。如何从大量的数据资料中找到隐含的有用信息也成为了研究的关键,数据挖掘作为一个可以从亿万条数据中提取有用信息的研究方向应运而生。序列模式挖掘是数据挖掘的一个重要的分支,可以挖掘出所有满足某些特定频率约束条件的有用模式,广泛应用于生物医学、信息检索等领域。对比序列模式在商品推荐、用户行为分析和电力供应预测等领域有着广泛的应用。带有密度和间隙约束的对比序列模式挖掘是挖掘出所有满足密度与间隙约束并且在正例序列库中是频繁的在负例序列库中是非频繁的一种模式。与传统的对比序列模式挖掘问题相比,带有密度约束的对比模式更有助于发现生物序列中的一些特殊因子的分布情况,更有利于发现新的突变因子。因此,本文主要对基于密度约束和间隙约束的对比模式挖掘问题进行了研究。本文的研究内容和相关工作如下:1.本文应用网树结构,构造了MDSP算法。该算法只需一次扫描序列,即可计算当前模式的所有超模式的支持数,并进一步采用广度优先方式生成候选模式树,从而挖掘了所有对比模式。2.对MDSP算法的时间复杂度与空间复杂度进行了理论分析。3.针对真实DNA数据集和蛋白质数据集,对MDSP算法和同类算法gd-DSPMiner算法从挖掘的对比模式数量以及挖掘速度两方面进行了对比。大量实验结果表明,MDSP算法比gd-DSPMiner算法挖掘对比模式数量多,并且在对蛋白质序列数据库这种具有很大字符集的数据库挖掘时,MDSP算法挖掘速度快。
其他文献
周界入侵电磁传感系统是近年来发展起来的一种户外周界防护系统,该系统广泛应用于机场,军事基地,核电站,工业厂房等重要场所,其原理是将一根漏泄同轴电缆(简称漏缆)浅埋于地
高速宽带无线通信系统中,由于符号间隔降低,导致信号到达接收端的各延时路径可分辨,从而带来多径效应且引入了频率选择性衰落。此信道是非时变的,然而一旦通信双方中的一方处
目的:1.筛选急性脑干梗死患者的差异性内源性代谢物质,通过对获得的生物标志物进行分析,探讨急性脑干梗死发病的可能机制。2.观察针刺组与对照组治疗前后急性脑干梗死患者生物标志物的变化趋势,探讨针刺对急性脑干梗死可能的干预效应。方法:1.以27例临床急性脑干梗死患者和25例正常健康人为研究对象,采集受试者晨起空腹肘静脉血4~5m L,经过高速离心机离心,取血清为检测样本,采用超高效液相色谱-四级杆-飞
日渐成熟的人体运动捕获技术催生了一批大规模运动数据库的出现,为人体动画生成提供了真实且丰富的数据来源。受运动捕获系统成本、环境、资源等方面的限制,通常动画师们会为
随着计算机体系结构的发展,多核处理器内部结构越来越复杂,处理器核的数目和种类不断增加,如何充分利用这些处理器核成为计算机领域的一个研究热点。在多核处理器中,任务调度
在全球经济不断发展,知识经济竞争日趋激烈的今天,现代科技对人类社会的影响日益加深,科技工作者对社会的发展显得越来越突出。但是由于工作压力大、闲暇时间少、久坐、不经
数据挖掘是人工智能领域中的重要组成部分,同时也是一个多领域交叉的学科,广泛的应用于数据处理方面。Pawlak于1982年提出了粗糙集理论(Rough Set,RS),其能够处理数据集中不
随着互联网技术的迅猛发展以及互联网应用的不断普及,互联网已经成为越来越多的人们获取信息的重要来源,同时成为人们表达自己观点的平台,由此产生巨大的情绪数据。与此同时,
相关向量机(Relevance Vector Machine,RVM)是一种基于稀疏贝叶斯理论提出的机器学习算法,它的主要宗旨在于拟合目标数据进行分类和回归预测。但RVM算法在某些方面还有一些不
由于光纤光栅传感器具有灵敏度高、体积小、抗干扰能力强等优点,使其可以广泛应用于大型结构、周界安防等各个方面,因此,有必要对光纤传感信号进行预测和处理。在机器学习领