频繁子结构挖掘算法研究与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:muyechunqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在新兴的化学信息学、生物信息学,网络分析、XML数据等领域,需要用树或图这样的结构化数据类型来表示数据。在这些结构化数据类型中进行数据挖掘,将有助于我们获取新的信息和知识。在结构化类型的数据集合中,频繁项的挖掘是一种最基本的数据挖掘方式,如何高效地挖掘频繁子结构模式,是一个挑战性的问题。已有的高效频繁子结构挖掘算法的核心思想可以大致分为基于Apriori原则的连接方法和基于模式增长的扩展方法,但前者难以直接生成规范化的候选模式,后者又容易产生候选模式的数目过大。通过分析这两类方法的特点,提出了混合型PJE方法,该方法是研究频繁有根无序树挖掘、频繁自由树挖掘和频繁子图挖掘的基础。在频繁有根无序树的挖掘中,采用最小深度序列作为规范化标记形式,并且基于前缀结点进行扩展,在常数时间内得到新的规范化形式的候选模式树。采用深度扩展和广度连接的混合方式列举候选模式树,利用Apriori原则减少候选模式树的数目。对列举生成的候选模式树,利用Apriori原则进行剪枝,进一步减少需要进行频度统计的候选模式树数目。用规范化的嵌入出现列表表示模式树在数据库中的出现,在此基础上进行出现频度统计,不仅避免完整的子图同构判断问题,而且比使用完整出现列表节约了大量空间。综合以上技术,给出了频繁有根无序树挖掘算法Root-PJE,并且在人工数据集和真实数据集上进行性能测试,验证了性能比现有算法有较大提高。在频繁自由树的挖掘中,定义自由树的中心结点或双中心结点,将自由树转换为以中心结点为根的有根无序树。基于自由树的脊柱路径和最小脊柱串,定义自由树的脊柱串优先最小深度序列,在此基础上运用前缀结点进行深度扩展和广度连接,在常数时间内得到新的候选模式自由树。对候选模式自由树采用Apriori原理进行剪枝,并采用规范化嵌入出现列表进行频度统计。综合以上方法,给出频繁自由树挖掘算法Free-PJE,并且在人工数据集和真实数据集上进行性能测试,验证了性能比现有算法有较大提高。在频繁子图的挖掘中,将图分解为不包含叶结点的图核部分和不包含环的分支森林部分,定义分支森林在图核上的连接向量。由此定义最小“图核-分支-连接向量”三元组作为图的规范化标记形式。以扩展方法得到频繁模式图核,对一个图核由列举得到所有最小连接向量,由此将图看做是虚拟有根无序树,在此虚拟树上进行基于前缀结点的深度扩展和广度连接,从而在常数时间内得到新的候选模式图。采用基于Apriori原理的剪枝和基于规范化嵌入出现列表的出现频度统计。基于以上方法,给出频繁子图挖掘算法Graph-PJE。在人工数据集和真实数据集上进行了性能测试,验证了性能比现有算法有较大提高。为了提高图查询的效率,需要在图数据库中建立图索引。利用图数据库中的特征子图和其事务出现列表建立图索引。查询时,首先利用图索引得到查询图的候选查询结果集,然后验证每个候选结果图是否完整包含查询图。使用频繁子图挖掘结果作为图索引,可以保证候选查询结果集不大于频繁挖掘中的最小支持度。使用共享前缀树保存索引特征子图,只需保存有效事务出现列表,可以减小图索引的大小。在真实的分子结构图数据库中,将6边环和5边环看做虚拟原子,对分子结构图进行重构后建立图索引,可以大幅减小图索引的大小。利用真实数据集进行测试,验证了频繁子图索引的高效。利用新提出的频繁子结构索引和查询方法,以达梦关系数据库管理系统为平台,设计并实现了化学数据库系统的原型。在该数据库中,利用关系表存储化学结构数据和化学结构索引,利用外部存储过程,实现了化学结构数据的存储、索引、查询以及挖掘功能。
其他文献
Josh Gieber曾说过,“用一个大脑,一双脚和积极的心态,你可以做任何事情”。作为一名免费师范生,在异国的学习环境中,我获得了非常珍贵的财富,那便是对于教师教育的所见所闻所感,印
在我国经济迅猛发展的今天,道路桥梁工程也有了实质性的改变,给人们的工作和生活带来了诸多便利.本文对道桥工程混凝土裂缝的产生原因以及修复措施进行了分析阐述,以期为道桥
<正>~~
期刊
2014年2月4日上午,就是正式出任CEO的那一天,我早早驱车去了微软园区,准备上任第一天对员工的讲话。在感恩节放假期间,我写了一份10页的备忘录,回应董事会在遴选CEO过程中提
环境法学理论想要实现在发展过程中逐步走向成熟,需要在面对环境法学方法论研究相关工作时尽量减少抽象思维的争论,将环境的破坏作为环境法学的思维逻辑起点,从实际生活出发,在研
近期,美国医疗健康支出的增幅放缓颇受关注。有人认为过往美国医疗健康支出居高不下的态势已经有所改变。然而,根据经合组织OECD一项针对国际医疗健康的研究指出,最近的医疗健康
目的:观察低温在治疗癫痫发生过程中的细胞学机制。方法使用单-双-膜片钳技术,对4-氨基吡啶诱导的癫痫小鼠模型的海马和皮层神经元细胞进行穿孔,分别记录不同温度下细胞的电生理
<正> 龙门起重机主工字梁下翼缘因与电动葫芦的行走车轮长期在重压下摩擦,而出现正常的磨损和非正常的咬边、弯曲甚至扭曲现象。以至使电动葫芦的车轮无法在主工字梁下翼缘斜
目的:通过莲心碱作用于膀胱癌细胞T24,研究其对膀胱癌细胞T24增殖的影响。方法使用不同浓度的莲心碱处理膀胱癌细胞T24,通过CCK-8实验及克隆形成实验,检测莲心碱对细胞增殖的影响
网络论坛是重要工具,在把握网络论坛零技术,广信息,快交流的优势基础上,对网络论坛有效利用,将促进军事法学专业教员的专业获得巨大发展。