基于频繁子模式的图形相似性搜索研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ciscohd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从上世纪后期,数据挖掘就作为一种新兴且有效的信息提取手段,不断受到越来越多科学研究人员的重视和研究。图形挖掘作为数据挖掘学科的一个新兴的交叉领域是在2000年开始被一些专家学者提出并研究。图形挖掘本质上就是将数据挖掘技术推广到利用图形对领域和科研信息进行建模的科学研究中,并在此基础上研究出适合各个领域的新的图形挖掘技术,从而推动科研生产的发展。图形挖掘主要的应用领域,即化学和生物信息科学。在这些领域中利用图形对一些领域信息如分子,蛋白质链等进行建模,然后通过在相应的图形数据集中挖掘出一些对各种科学研究有价值的模式信息,来为科学研究服务。频繁子图挖掘和图形相似性搜索是图形挖掘中两个重要的研究领域。频繁子图挖掘,即从给定图形数据集中挖掘频繁出现的一些子图或图(也叫子结构或模式)。而这些频繁子图(模式)实质上就表示相关领域的一些重要的信息。图形相似性搜索,即在给定的基于领域信息建模的图形数据集中查询满足某种相似性条件的图形,是在2004年才由Yan等人提出。这种搜索广泛应用于各种科学研究中,如新药物的研制,化合物毒性的预测等。近似图包含搜索作为一种图形相似性搜索最早是在2007年Chen等人的关于图包含搜索的论文中被提出,但并没有研究。这之前的研究只局限与精确搜索和传统子结构相似性搜索。传统子结构相似性搜索,即查询给定数据集中包含或近似包含给定查询图的模型图。近似图包含则是搜索被查询图包含或近似包含的模型图。由于包含关系截然相反,因此以前的针对传统子结构相似性搜索的索引构造策略对近似图包含搜索不再适用,并且,在此之前,还没有针对近似图包含搜索的索引构造算法提出。本文在对一些典型的关于频繁子图挖掘和图形相似性搜索的索引构造算法进行充分研究的基础上,提出了一种基于覆盖率和支持度的针对近似图包搜索的索引构造算法csIndex(coverage and support based Index),csIndex的主要思想是首先对从给定模型图集合中挖掘出的频繁子结构的覆盖率和支持度进行综合考查,并计算出其基于覆盖率和支持度的综合筛选能力,然后选择综合筛选能力较高的子结构作为索引项,并且将这些索引项组织成索引矩阵来建立索引系统。通过在一些该领域经典的实验和测试数据集上的各种测试,结果表明,csIndex能在完成高效的近似图包含搜索的同时有效避免子图同构测试,而子图同构测试已经证明属于NP完全问题。
其他文献
学位
在层出不穷的软件漏洞中,缓冲区溢出漏洞已经成为当前危害最大、出现频率最高的漏洞,随着信息技术和网络技术的高速发展,缓冲区溢出漏洞日益变得严重。面向源码的缓冲区溢出漏洞
建立网格可以最大限度地综合利用分布资源(数据,计算能力,存储能力等),消除异构资源孤岛,真正实现资源共享;网格门户同Web门户类似,是一个访问网格系统的入口;访问控制是网格
随着信息技术的不断发展,互联网用户不再满足于以往习以为常的上网搜索、即时聊天等主动行为,而是希望能够针对自己的兴趣、爱好、性格、行为等特点,接受具有针对性的推荐服务。
基于榕树型拓扑的铁路无线Mesh网络结合总线型和星型拓扑的优点,为将宽带Internet延伸到铁路沿线提供了一种更为合理的解决方案。但是,与传统的无线校园和企业网等不同,铁路
医学图像的三维重建是医学可视化重要的研究方向。三维重建通过二维断层图像重建出三维实体,提供给用户进行观察和交互。通过医学图像的三维重建,能够准确的反映人体组织、器
尽管关系数据模型为数据库提供的优势远超过其他数据模型,但它缺乏一种处理非确定性数据的综合方法,而数据的非确定性充满我们整个现实世界环境中,并愈来愈引起人们的注意,如
图像分割能够按照某一特征把图像分成若干具有一定意义的、互不交叠的区域,是由图像处理前进到图像分析的关键一步。图像分割的质量将直接影响对图像的后续处理,所以图像分割
计算机软硬件技术飞速发展,有力地推动了嵌入式系统等专用计算机系统的广泛应用。在很多嵌入式系统中,用户往往要求具有菜单、窗口和按钮等图形元素的人机交互界面。而图形用
随着电子商务、社会计算、物联网等新应用的发展,促使相关数据的规模呈现出快速增长的趋势,大数据正改变着人们的生活、工作和思维方式。准确、高效地从大数据中挖掘出潜在的有