基于多关系决策树算法的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:sunshu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。高效性和可扩展性一直是数据挖掘领域的重要研究课题。考虑多关系数据挖掘,这个问题尤为重要。多关系数据挖掘任务的复杂性对算法的性能提出了更高的要求。与传统的数据挖掘算法相比,多关系数据挖掘算法的搜索空间变得更复杂,更大。对于多关系数据学习算法,提高算法效率的主要瓶颈在于假设空间。针对以上问题,本文主要做了以下工作:首先,本文对数据挖掘理论、关系数据挖掘理论进行了研究,尤其是多关系数据挖掘的分类算法-多关系决策树算法及多关系数据挖掘的最新技术-元组传播技术进行了深入的研究。其次,本文提出了多关系决策树的改进算法。多关系决策树主要从两方面进行改进:1为了提高多关系决策树算法可扩展性,本文将虚拟连接元组传播技术应用到改进的多关系决策树算法中;2为了减少系统独自摸索的时间、减少系统搜索有用属性的时间和提高用户的满意程度,本文提出了在用户指导下完成分类任务的背景属性传递技术,并将该技术应用到改进的多关系决策树中。最后,本文对改进的多关系决策树算法进行了理论证明和实验验证。本文的实验主要利用了PKDD CUP’99中的Loan、Account、Transaction三个关系,采用两种方法对一般多关系决策树算法和改进的对关系决策树算法进行比较实验。第一种方法,固定三个关系的记录数不变,每个关系分别增加属性个数进行实验,第二种方法,固定三个关系中的属性个数不变,改变关系记录条数进行实验。通过上面的实验结果,本文研究认为,当改进的多关系决策树在搜索数据项未达到背景属性传递阀值时,改进多关系决策树算法的运行效率较低;当改进的多关系决策树在搜索数据项达到背景属性传递阀值时,改进的多关系决策树算法的效率相对很高且受属性个数增加(或记录数增加)影响较小。
其他文献
工作流是一种反映业务流程的计算机化的模型,是为了在先进计算机环境支持下实现经营过程集成与经营过程自动化而建立的、可由工作流管理系统执行的业务模型。工作流的生命周
在应急通信系统的运行过程中,人为错误、黑客或病毒攻击、系统中软硬件缺陷等因素都可能造成数据的丢失和损坏,数据文件的丢失会破坏数据的完整性和可用性,而操作系统的损坏
由于网络和计算机的广泛应用,以及高速低价的通信资源,使我们有可能利用地理位置分散的资源处理一些复杂的问题,例如科学计算、工程、商业等问题。正是对这些问题的研究导致
伴随着网络攻击的常态化、多样化、多变化,入侵检测技术受到越来越多的关注。入侵检测技术根据检测原理不同可分为误用检测和异常检测,然而由于异常检测存在天然的缺陷导致其
随着我国国民经济的飞速发展和人民生活水平的提高,公路客运面临着增加运能、提高服务质量、提高竞争能力的迫切需要。航空客运有着速度上的优势,占据了天时:铁路客运有着全国庞
随着计算机和网络的普及,音视频编解码技术的发展以及人们对生活要求的提高,流媒体技术受到了学术界和产业界的关注,IPTV服务也逐渐受到欢迎。诸多公司和组织参与了高性能的
视觉在人类感知中起着极为重要的作用,而视觉感知的结果和表现形式——图像,是人类认识世界的重要信息来源,因此图像已成为多媒体技术中最为重要的数据类型。图像的处理与分
射频识别技术是一种非接触式的自动识别技术,它利用射频方式在射频电子标签和读写设备之间进行双向通信,从而完成对目标的识别和数据交换。采用射频识别方式进行数据采集的便
虚拟现实技术是近二十年来发展起来的一项高新技术,它是以计算机技术为核心,结合相关科学技术,构建出与一定范围内的真实环境在视觉、听觉和触觉等方面高度近似的虚拟环境。
空间数据库是数据库领域的一个研究热点,主要研究内容包括空间数据模型、空间数据索引技术、空间数据库的访问接口、空间查询处理等。空间对象存储在空间数据库中,它们由空间