基于相关图的数据挖掘理论及应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:dragon_3628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的研究经过十几年的迅速发展,已经取得巨大成就,相关技术正在被各应用领域的专家所瞩目。目前,数据挖掘研究及其应用己经渗透到多个学科及领域中,并在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等领域取得了丰硕的成果。同时,数据挖掘不但受到众多学者的关注,而且很大程度上得到了政府、工业界的广泛支持。通过引进数据挖掘的能力,可以大大提高生产力,取得社会的更大进步。世界上许多国家和地区的政府及工业界都希望掌握数据挖掘技术,提升国家和企业的科技含量,并最终取得领先的地位。 当前,复杂类型数据的挖掘日益频繁,专家学者们已经开始关注这方面新的应用和理论研究,并试图利用无结构化数据挖掘方面的经验和方法论来帮助解决新问题。而本文则是致力于结构数据的挖掘与处理问题,主要使用基于图结构的数据表示模式。图论技术被广泛应用于科学研究、社会生产的许多领域。它通过抽象方法,将各种复杂的关系整合出来,把考察对象变成一张网络拓扑图,其中每个相关的对象可以是图中的节点,而对象之间的联系则可以看作图中的边。如此以来,对科学、社会等领域的研究分析,自然而然就转化为对网络结构的挖掘。因此,正是由于图论技术的灵活的实用性和广泛的应用性,对图结构数据挖掘的研究就成为目前数据挖掘领域的一个重要研究方向,而数据相关性的挖掘研究尤其成为图结构数据研究中的焦点问题。 但是现在对于图挖掘技术的研究还不够成熟,特别是在数据相关性挖掘中的应用还没有深入研究。然而,相关性研究在商业领域中的风险评估,尤其是在信贷方面中的应用非常重要,已有的研究成果中仅有一些开拓性的工作,研究不够深入。 本文针对目前基于图的数据挖掘与处理中存在的五个关键问题做了如下的工作: 1.为了提高图挖掘技术的数据相关性挖掘能力,提出了相关图概念,研究了基于相关图的全局相关和非线性相关的分析与发现技术,设计了相应的算法CGHCF和NLCD,用于复杂数据的全局相关性和非线性相关性的挖掘; 2.为提高规则推理和提取的有效性,提出了相关流图的概念,研究了基于相 关流图的数据约简和规则推理技术,建立了基于相关流图的规则推理网络 CFGRN; 3.为有效挖掘频繁模式,提出了相关二部图的概念,研究了相关二部图中的频繁子图挖掘问题,提出了一种基于相关二部图的频繁子图发现算法CBGFF和启发式邻集匹配算法HNMA;根据二部图所特有的结构特征设计了基于导出子图的频繁子图增量学习模型IGIFG; 4.为了加强基于图的概念学>习能力,提出了基于相关图的扩展归纳逻辑规划的概念以及项图的概念,研究了基于相关图的归纳逻辑规划的问题,提出了基于相关图的可驳倒式扩展逻辑规划技术,设计了基于相关图的扩展逻辑规 划算法(CEILP);提出了基于项图的合一(UA)算法。 5.构建了基于图的数据挖掘系统CGMS,该系统能够实现数据的图结构存储 形式转换,可以从复杂相关数据中发现全局相关关系以及非线性相关关系,而且能够有效地提取规则,用于实际的决策支持。结合银行业务数据进行风 险评估课题(广东省科技攻关项目2004A10202001和2005810101033),研究 结果表明本文提出的基于相关图挖掘技术的有效性和实用性。
其他文献
XML(eXtensible Markup Language)是一种广泛使用的标记语言,用来定义各种XML文档,应用于Web数据传输、数据集成、文档存储等场合。DOM(Document Object Model)是W3C组织定义
廊坊道路网是廊坊基础设施的重要组成部分。近年来,随着社会经济的迅速发展,道路规模不断扩大,道路相关信息资料和数据也在快速增加,其管理业务和管理难度也急剧增大,这对廊坊道路
数据挖掘是一个从大量数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。商业竞争带来的巨大压力促使许多公司关注数据挖掘技术,用它来帮助企业
提出了一种过滤式和封装式结合的特征选择算法和一种改进的深信度网络的特征选择算法。在对目标进行分类、识别的过程中,若特征的数量过多,会使计算在时间和空间上有较大的耗费
随着计算机和网络在日常工作中的广泛应用,工作流技术已成为协调企业业务过程、增强企业应变能力和竞争力的重要技术。作为工作流技术的软件载体,工作流管理系统WfMS(Workflow
掌握信息优势是取得现代战争胜利的重要因素之一。信息控制权将成为制空权、制海权、制陆地权的重要组成部分。电子沙盘三维地形可视化系统的实现,为各级作战指挥员提供了一个
数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规
我国消防系统的档案多以文档形式为主,部分信息附以二维平面图来表现。本课题是研究和开发高层和大型建筑的计算机三维模型的快速生成系统,为建立消防档案提供三维的机制,促
在异构分布式环境中,具有依赖关系的任务调度问题属于NP完全问题。为了取得较好的调度方案,很多启发式调度算法被引入到了调度问题的研究当中。例如:列表调度算法、遗传算法、模
用计算机生成具有真实感的画面是计算机图形学的主要目的。其前提是构建虚拟场景的逼真几何表达。一种有效的解决途径是获取真实世界中物体的几何信息,然后基于这些信息进行建