多数据源中的特异数据挖掘

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:lurenjia1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术通过对数据库中的数据进行挖掘,可以得到很多重要的知识,包括分类知识、聚类模式、关联规则以及序列模式等等。其中关联规则是通过分析数据库中频繁出现的数据之间的联系得到的一类规则,是数据挖掘技术应用的最经典案例。需要指出的是,常用的关联规则挖掘方法挖掘的都是存在于数据库中多数平凡数据之间的规律,而那些存在于少数特殊数据当中的规律却不能被常规的数据挖掘方法得到,但是这些规律往往同样具有很重要的使用价值。特异规则就是这样一类规则,他们反映的是数据库中少数对象之间的关系,但又是常理之中的规则,却不能被常规的关联规则挖掘方法挖掘出来。另一方面,随着数据库技术和网络技术的发展,人们已经不再局限于将所有的数据存储到同一个数据库当中,而是可以把数据分布存储在多个数据库当中,要对这多个数据库中的数据进行挖掘的时候就必须用到多数据库挖掘方法。现有的多数据库挖掘方法主要分为以下三类:(1)把多个数据库集成到一个数据库中,然后用传统的单数据库挖掘方法对这个数据库进行挖掘,这种方法在数据库连接过程中会产生大量的记录,而且可能会造成数据冲突、数据不一致等问题;(2)对每个局部数据库进行挖掘,然后集成各个数据库中的局部模式得到全局模式,这种方法有可能会造成一些全局模式的破坏;(3)通过引入归纳逻辑程序设计ILP技术,直接从多个数据库中提取出相关的全局模式,这种方法在使用过程中有较多限制,对于输入格式要求过于严格,且运行效率非常低下。本文研究的是多数据源(库)中的特异数据挖掘,旨在解决上述两个问题,主要研究内容如下:(1)提出了一个新的数据库距离(相似度)定义,既能衡量交易数据库之间的距离,又能衡量数值数据库之间的距离,并据此设计了一个基于聚类的多数据库分类方法AN-DBC,将来自于多个数据源的数据库先根据相似度进行聚类,结构相同或相似的数据库被分到同一个簇当中,结构差别较大的数据库被分到不同的簇当中。同簇中的数据库被认为是同种类型的,可以根据共同的部分结构进行集成得到一个数据库之后再挖掘,或者采用同样的数据挖掘方法并行挖掘。将所有的数据库分类之后再挖掘,相对于传统的把所有的数据库直接集成再挖掘的方法来说,可以大大降低算法的复杂度。此外,相对于直接挖掘局部数据库再集成各个局部模式的方法来说,可以在一定程度上减少全局模式的破坏。(2)分析了现有的特异数据挖掘方法,指出该方法在特异性阈值设置上的不足之处,并在此基础上改进了特异性阈值的设置。本文中设置一个特异性比例因子r,首先计算所有属性值的特异性因子(Peculiarity Factor),特异性因子列于前100r%的属性值被认为是特异性数据。这样使得在每一个属性中我们都能找出一部分异于其他数据的数,即特异性数据。(3)借鉴关联规则生成方法,通过计算特异数据同时出现的概率得到它们之间的关联,最终挖掘出其中的特异规则。(4)从国家统计局官方网站上公布的国家统计年鉴的各个行业数据中随机抽取其中的18个表作为实验数据,首先用AN-DBC方法进行聚类,聚类结果验证了方法的有效性,然后用改进的特异数据挖掘方法对各个簇中的数据库进行特异数据挖掘,集成各个局部特异规则得到全局特异规则。最后,对实验结果进行了分析与讨论。
其他文献
本文以液晶平板电视的关键技术为研究对象,旨在通过对液晶电视的主要部件--液晶模组的结构、驱动电路、一体化电源三方面技术进行研究,并经整体优化设计,在不降低产品性能的前提
学位
软件复用是解决软件危机比较现实有效的方法之一。基于构件的软件开发CBSD(Component-Based Software Development)方法既是软件复用的切实可行的途径,也是实现软件工业化生
无线多媒体传感器网络(Wireless Multimedia Sensor Networks,WMSNs)是一种支持传输图像和视频等信息服务的无线传感器网络,在环境监测、移动医疗、交通监测等诸多领域都具有
肖像画是一种描绘具体人物形象的绘画。人脸是人体最富有个性化的部分,人脸特征的不同体现着人物之间的个体差异,一幅逼真的肖像画不仅能抓住人物的面部特征,而且能刻画出人物的
从1972年发现NP-完全性以来,很多学者就对NP-难的优化问题能否有快速算法来计算其近似解感兴趣,然而对大部分这类问题,寻求有效的近似算法都令人失望。于是尝试来证明求其近似解
网格技术是一种新兴的基于Internet的应用技术,网格技术的出现使互联网上所有资源的全面连通成为可能。但是,网格系统的异构性、动态性、多域性等特点使得网格安全问题比普通
无线传感器网络在世界各个领域都有着相当巨大的应用价值,它已经引起了世界各国在工业、农业、军事、环境、医疗等传统领域以及家用、保健、交通等许多新兴领域方面的极大应用
学位
近几十年来,数字图像,视频的处理技术一直受到广泛关注。不仅是专业的影视、动漫企业,更多的非专业用户希望对自己拍摄的媒体素材进行编辑处理工作。图像,视频的分割技术在素
随着信息技术的发展,图像处理技术已经成为科学研究的有力工具。在医学图像处理领域,应用分析处理系统对减轻医生的阅片劳动强度和提高诊断精度具有重要的意义,而图像分割是图像
随着信息时代的到来,人们对数据交互和通信的需求越来越大。大多数的数据和信息可以通过传统的路由-交换互联网有效传输,但在一些网络设备难以架设的偏远山区以及在河流湖泊