不确定数据中数据挖掘方法的研究

被引量 : 0次 | 上传用户:cy58452
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,不确定性数据(Uncertain Data)得到了越来越广泛的重视。在许多实际领域,例如经济、金融、电信、物流等领域的应用中,普遍存在着数据的不确定性,且不确定性数据往往扮演着关键角色。不确定数据挖掘也成为数据挖掘领域中一个非常重要的研究课题。本文对现有的不确定数据挖掘算法进行了分析研究,从频繁模式挖掘和聚类分析两个角度提出了新的算法,以提高相应不确定数据挖掘的执行效率。首先,针对基于树结构的不确定数据流频繁模式挖掘算法会存储大量的树结点信息,并且记录数据流的相关信息会导致海量信息存储这一问题,提出了基于压缩树和位向量表的不确定数据流频繁模式挖掘算法。将不确定数据流初始化为概率—位向量表,向量表中用事务来表示项目,并且存储项目发生的概率。同时定义一种压缩树,将带有不同概率的相同项目存储到同一个树结点上,将树结点中的项目及其概率对应到位向量表中并将其转化成二进制位向量,在树的每个叶子结点上连接一个数组用来存储这条路径上所有项目的组合及其期望支持度,并将叶子结点存储到列表LeafList中。算法扫描LeafList中每个项目所指叶结点连接的数组,将数组中存储的期望支持度与用户给定的最小支持度阈值进行比较得到所有的频繁项集。其次,针对基于行枚举空间挖掘算法中闭项集检测执行时间较长以及搜索空间较大的问题,提出了基于频繁模式有向无环图的频繁闭合模式挖掘算法。定义了一种频繁模式有向无环图(FPDAG)。FPDAG中每一个行号对应一个节点,每两个节点对应一个有向边,有向边存储相邻节点共有的项,有向边记录项和事务的包含关系。首先将数据集转化成位表,再根据位表构建FPDAG。模式增长过程只需要增加有向边上相同的项,通过逆向遍历FPDAG递归产生频繁闭合项集。再次,针对软件漏洞数据这种不确定数据,现有的漏洞分类的研究按漏洞的特点、弱点和缺陷等概念进行分类,这种分类方法分类标准不统一,存在分类重叠现象。针对这一问题,提出了基于虚拟网格的不确定数据聚类挖掘算法。定义了一种虚拟网格结构,该结构把单元格分为实单元格和虚单元格,只把包含数据对象的实单元格存入内存。同时,定义了概率属性值相似度,通过比较元组间非数值属性值相等的个数来衡量元组间的相似度。基于概率属性值相似度,提出二次划分算法,把元组合并到与它有最大相似度的邻居实单元格中以提高实单元格内元组的相似度。最终,提出一种基于虚拟网格的识别簇算法,通过遍历两次实单元格发现任意形状的簇。最后,针对在使用基于网格密度的方法对数据流进行聚类时,由于网格划分的随意性,可能出现属于簇的边缘数据点被划分到单独的稀疏网格,从而使得这些数据点被判断为噪声的这一问题,提出了基于空间有向图的不确定数据聚类挖掘算法。定义了一种带重心属性的空间有向图结构SDGC(Spatial Directed Graph with Core),经过在线过程对有向图顶点的维护和离线过程生成有向图并对它进行聚类后,使用顶点维护的重心信息和聚类后得到的簇边缘顶点信息,来判断簇边缘稀疏顶点中的数据点是否属于该簇,然后使用一种新颖的调整策略来调整处理边缘后的结果簇以得到最终聚类结果。通过实验结果分析表明,本文提出的不确定数据中频繁模式和聚类挖掘算法改善了传统相近算法在频繁模式挖掘效率和相似性度量的准确性,基于压缩树和位向量表的不确定数据频繁模式挖掘算法、基于频繁模式有向无环图的频繁模式挖掘算法、基于虚拟网格的不确定数据聚类挖掘算法和基于空间有向图的不确定数据聚类挖掘算法的性能都有所提升,并且保持了较好的伸缩性。
其他文献
后现代符号经济《达·芬奇密码》,通过瑰丽奇特的符号解码和文化寻根,将被现代性所打压的深厚的女神文化资源成功转化为巨大的生产资本。本文通过对物象符号、图形符号、地点
科技的发展是促进社会进步的有效驱动力,每一项技术的发明都有可能重组社会结构。互联网的出现把人类紧密的联系在一起,使得人们的生活方式发生了巨大的变化,教育也在这一伟大的变革中努力寻求可持续发展的方向。以MOOC为例的互联网时代教学模式已经发展得如火如荼,也给音乐教育者们带来了新的视角,它以关联主义学习理论为理论基础,打破了音乐教育的传统教学模式,摆脱了地域的限制、提供丰富的学习资源、促进了教育平衡发
随着科学技术的发展,人们越来越重视生活的品质。从台式机到笔记本,再到平板电脑,无不完美体现了科技发展带来的好处。与此同时,全球竞争变得更加激烈,对于OEM平板电脑行业,更是如
在建设图书馆数字资源库时,需要利用互联网上的开放存取(Open Access,OA)期刊论文作为图书馆数字资源库建设的信息源,利用论文元数据信息可以提高论文在图书馆数字资源库中检索
糖耐量减低(impairied glucose tolerance,IGT)是2型糖尿病发展过程的必经环节,如果不进行干预,每年将以10%-15%的速度发展为糖尿病。IGT和肥胖又是代谢综合征的重要组成部分,具备与2
本论文以钛酸丁酯为钛源,采用低温回流法和溶剂热法制备了单分散TiO2微球,所制备的样品具有较大的比表面积和优良的光催化性能,具有介孔材料的特征,有可能发展成为一种高效的催化
目的分析单点固定和免气囊免固定法全腹膜外腹腔镜腹股沟疝修补术(TEP)的安全性及有效性。方法确诊并行TEP的腹股沟疝病人164例,分为两组,A组68例,免气囊单点固定补片,B组96
现代企业所有权与控制权的分离产生了代理成本。尽管股权激励作为降低代理成本的长期激励机制在国内外众多企业中广泛推行,然而股权激励效果研究却并未达成一致,非上市公司中,股
本文辨析汉代"枸酱"的产地、原料及产品属性。认为,枸酱是产自今茅台酒原产地一带的一种发酵食品,是古代民众发酵水平的体现。
<正>喻嘉言《医门法律》首创秋燥论,更正内经“秋伤于湿”为“秋伤于燥”,认为四时之感六气为病,应是“春伤于风,夏伤于暑,秋伤于燥,冬伤于寒,”“燥金虽为秋令,
会议