面向属性归纳的数据概化方法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:asdhjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘获得的规则包括描述型规则和预测型规则,特征化规则是一种典型的描述性规则,数据概化是描述型规则挖掘方法的一种主要手段,而面向属性的归纳方法则是实现数据概化及生成特征化规则的一种重要方法。 概念层次使给定的数据离散化,收集并用较高层次的概念来替换较低层次的概念,使数据进行归纳;通过概化使数据更有意义、更容易解释。对于同一个属性可以定义多个概念层次,以适应不同的用户需求;定量特征规则通过将定量信息与规则相结合,定量地反映概念的主要特征和次要特征,面向属性的归纳算法是在数据库中挖掘定量特征规则的一个重要手段。 本文对传统的基于概念的面向属性归纳的方法(AOI)进行了深入研究,分析了概念层次的定义、表示方法及特征规则评价方法等问题,发现它们存在以下不足:(1)不能处理不平衡的概念层次;(2)没有考虑实际数据分布对最后的泛化规则的影响;(3)直接采用传统AOI方法往往会使同一个概念有不同的特征描述,这种现象必然降低规则对决策的参考价值。 针对以上不足,在传统AOI的基础上设计出一种增强的面向属性的归纳算法Expanded-Attribute-Oriented Induction,简称:E-AOI,它不仅可以处理不平衡的概念层次,而且得到的泛化规则可以反映实际的数据分布。算法中提出了测量定量特征规则有效性计算指标-方差分析(analysis of variance),使特征规则在有效性上达到最优,同时削除同一概念有不同的特征描述的现象。 设计了E-AOI数据概化和特征化规则挖掘的实现策略和算法,给出了数据概化和特征化规则挖掘的结构框架。以美国人口调查局成人数据库,归纳年收入超过20万的人群特征为例,应用E-AOI方法实现了数据概化,获得特征化规则,实验证明E-AOI方法是可行有效的。
其他文献
数据挖掘中的隐私保护方法研究,是近年来出现的一个新兴热门研究方向。它将数据挖掘技术与隐私信息保护技术相结合,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式
软件开发的一个基本问题是如何及时演化以适应需求的持续变化。为了便于演化,不少系统采用了基于扩展的演化机制,尽管该机制有助于提高开发的效率,但是它也容易导致特征交互问题
随着计算机软件技术和企业信息化的不断发展,企业使用的应用系统和管理系统也越来越多.虽然这些系统应用在不同的领域,管理着不同的对象,但是它们之间也存在很多功能和数据的
当前,是一个竞争激烈和信息技术飞速发展的时代,市场竞争越来越激烈,企业面临着更多挑战,中国正以制造业大国的身份迅速崛起,应变速度、降低成本、以及较高的生产能力和效率成为企
信息共享时代,网络安全十分重要。网络在建设初期并未考虑到安全问题,伴随着网络技术的发展,网络攻防的战斗也越演越烈。 防范网络攻击,最常用的对策是构建防火墙。利用防
Web应用服务器已经成为面向Web计算环境的主流中间件平台,它为创建、部署、运行、集成和管理企业级应用提供了基础设施支持。随着企业级应用非功能性需求的不断提高,Web应用服
学位
随着工业化与城镇化规模不断扩大,人类社会面临越来越多的发展问题,城市人口过密、交通拥堵、环境污染、规划落后等,各类应急事件(如空气污染、市区内涝、群体性事件)时有发生。物
本文研究了基于AVI视频流的公路收费站车型识别系统,全文共分六章,涉及以下三方面研究:AVI视频读取与处理技术、运动检测技术、数字图像处理与识别技术。  第一章介绍国内外研
学位
在现代的通信技术应用中,语音通信占有很大的比重,随着技术的发展和需要,语音加密技术在越来越多的领域——国家政治安全、经济安全和军事安全——都有着重要应用。随着数字技术
学位