基于模拟匹配的分布式频繁图模式挖掘方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:guodong0810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘的目标是在数据中找出所有频繁出现的模式,进而发现蕴含在数据中的潜在知识,根据所挖掘数据对象的种类,可以把模式分为事务、序列、项集和图等。在图数据中挖掘频繁的图模式称为频繁图模式挖掘,频繁图模式挖掘的目标是在数据图中找出所有出现次数大于给定最小支持度阈值的图模式。频繁图模式挖掘具有非常重要的理论与应用价值,众多学者也致力于研究新的更高效的频繁图模式挖掘算法。图模式匹配是频繁图模式挖掘算法中的重要操作,在频繁图模式挖掘算法中,通过图模式匹配可以得到当前候选图模式在数据图中的匹配结果,进而判断该图模式是否频繁。按照对匹配结果结构要求是否严格,可以把图模式匹配概念分为精确匹配和模拟匹配两类。当前许多在图数据上进行的频繁图模式挖掘工作都是基于子图同构来实现候选图模式与数据图的精确匹配。子图同构对匹配结果结构约束太过严格,在某些应用中进行挖掘会丢失一些有意义的频繁图模式。模拟匹配允许候选图模式与数据图中的匹配结果存在一定拓扑结构差异,作为一种新兴的匹配概念,在路网监测和社交网络分析等应用中发挥着重要作用。现有的模拟匹配概念,例如图模拟和双向模拟。在频繁图模式挖掘领域,现有的模拟匹配概念由于对匹配结果结构约束过于宽松,不能很好地应用于频繁图模式挖掘工作。例如图模拟可能会导致连通的候选图模式匹配到数据图中非连通的子结构,不能保证匹配结果的拓扑结构,大大影响挖掘质量,可能会导致挖掘出大量结构重复的冗余图模式。为了克服现有精确匹配方法的缺陷,文章应用模拟匹配概念解决在频繁图模式挖掘领域中的图模式匹配问题。针对子图同构强约束与现有模拟匹配概念的局限性,文章主要贡献是提出一种新的模拟匹配概念,称作协同模拟(ColSimulation),定义候选模式图中的结点通过单射函数映射到数据图,使得候选图模式在数据图上的匹配结果不小于该候选图模式本身的规模,解决了现有模拟匹配概念在频繁图模式挖掘领域的缺陷。本文将协同模拟概念应用于频繁图模式挖掘领域,针对大规模图数据提出基于协同模拟的分布式频繁图模式挖掘方法,称为SiMine(Simulate Mining)。SiMine采用整体同步并行计算模型的思想,遵循主从设备架构模式。通过制定合适的扩展和剪枝策略,设计优化策略提高整个分布式算法计算效率,SiMine可以在数据图中快速的挖掘出所有频繁图模式。在YouTube视频推荐数据集等实际数据集上的实验结果显示,与其他频繁图模式挖掘算法相比,本文提出的基于协同模拟的分布式频繁图模式挖掘方法SiMine在数据集中挖掘得到了更多有意义的频繁图模式,而且挖掘效率更高。随着大数据时代的到来,新兴应用层出不穷,图数据的应用场景也越来越广泛。本文提出的基于协同模拟匹配概念的频繁图模式挖掘算法未来可以应用于交通路网监测和生物信息分析以及其他新兴领域中以得到更多有意义的频繁图模式。
其他文献
近几年,随着社会对节能需求的增加以及全球对能源危机的关注,开发低热导率的绝热材料至关重要。中空结构材料因其独特的空心结构在绝热领域具有巨大的应用潜能。由于内部存在
研究目的:通过对于湖北省中医院行肾穿刺活检术诊断为IgAN的63例患者的临床及病理资料的回顾性分析,探讨中医证候与IgAN的临床、肾脏病理之间的相关性,为肾脏疾病的中医证候客观化及采用中西医结合提供依据。研究方法:采用回顾性分析的研究方法,收集湖北省中医院肾病科2012年至2019年期间63例行肾活检术诊断为IgAN的患者病史、临床特征、病理资料及中医证候等资料。运用SPSS26.0软件对所获得的
现代工农业生产和医疗技术的迅猛发展,加剧了硝基芳香族化合物、金属离子及抗生素药物的使用,而不规范的操作和滥用致使污染物入侵水体,对生态系统造成严重危害。因此,寻求一种性能优异的材料来检测并同时去除水中的污染物,显得尤为迫切。通过共价键构筑的荧光多孔聚合物在气体存储与分离、化学检测和污染物去除等领域表现出巨大潜能。芘(Py)因其自身优异的光学性能及刚性结构在制备荧光多孔聚合物中发挥着重要作用,而具有
三维建模是计算机用于表示三维模型或三维场景的数字表示技术,它一直是计算机图形学的研究重点之一。伴随着社会的进步以及计算机硬件技术的快速发展,三维建模技术越发成熟,
随着计算机、网络通信和多媒体等技术的飞速发展,与之相关的各类多媒体应用也融入用户日常的工作与生活之中,例如,桌面共享、网络会议、游戏直播、网上购物、虚拟漫游等。为
为了加快建设资源节约型社会,国家大力提倡使用节能减排效果明显的新能源汽车。目前制约其发展的突出问题是电池的续航能力不足,而解决该问题的关键因素则是开发并利用能量密
大豆蛋白是一种优质的植物蛋白资源,乳化性是大豆蛋白非常重要的功能性质之一,大豆蛋白添加到食品中可以有效改善口感、稳定体系的乳化状态并延长货架期。大豆蛋白的乳化性质
RCD1(radical-induced cell death1)是重要的转录因子调节子,属于植物SRO(similar to rcd one)蛋白家族。研究表明SRO蛋白家族参与植物正常生长发育,同时是多条抗逆信号通路
障碍期权作为一种常见的奇异期权,其在理论上和实践中都有十分重要的作用,因此成为了研究的热点之一。但之前的研究多见于单资产的情况,虽然在不同的方向上进行了很多扩展,但大多是在障碍的存续方式上做些改变,从而得到不同的结果。而对于增加资产的情况,即使是2种资产的情况也所见较少。本文对经典的障碍期权进行了一定的扩展,将原生资产的数量增加到2个,并假设对障碍的观测是离散的。首先对单资产的情形下已有的结果进行
金黄色葡萄球菌和链球菌是奶牛乳腺炎的重要致病菌,抗生素已经无法有效的防治金黄色葡萄球菌和链球菌感染。疫苗免疫接种已经成为防治金黄色葡萄球菌和链球菌感染的有效措施