一种基于最小风险贝叶斯决策的数据清洗策略

来源 :第十九届全国数据库学术会议 | 被引量 : 0次 | 上传用户：wyy_9715072

【摘要】

：

目前，在数据仓库的数据清洗过程中，数据的不完全问题，并不受重视。现有的处理方法之一是直接去掉带缺失项的记录，这一方法虽然筒单，也使我们失去了许多有用的信息，甚至会使基于该数

【作者】

：

高淑娟;鲍玉斌;江志纲;王大玲;于戈;

【机构】

：

东北大学信息学院软件研究所,沈阳,110004

【出处】

：

第十九届全国数据库学术会议

【发表日期】

：

2002年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前，在数据仓库的数据清洗过程中，数据的不完全问题，并不受重视。现有的处理方法之一是直接去掉带缺失项的记录，这一方法虽然筒单，也使我们失去了许多有用的信息，甚至会使基于该数据仓库做出不完全正确甚至是错误的决策。本文正是基于此提出了在数据不完全情况下基于最小风险的贝叶斯决策理论用干数据仓库中数据清洗过程，简述了利用此决策理论对缺失项的最小损失替代值的计算方法，尤其是错判带来的损失相差悬殊时，基于该方法的替代值的算法效果尤佳。进一步的研究工作要考虑在多个数据项缺失情况下利用数据库已有的记录，获得贝叶斯算法本身要求的已知条件，摆脱领域知识的限制，应用于一般的数据仓库中。

其他文献

基于数字图书馆应用的XML数据库性能评测研究

WWW上产生的海量XML数据已经成为现有关系数据库管理系统(RDBMS)的一个巨大挑战.由于传统的RDBMS主要为结构化的二维表数据而设计,因此它们很难胜任许多基于XML的、半结构化

会议

一个高效的多维关联规则挖掘算法

关联规则挖掘是数据挖掘的重要研究课题,近年来得到了广泛的重视和研究.一个关于关联规则的典型的例子是它在购物篮分析中的应用.本文采取“分而治之”的策略，提出了一种挖掘

会议

发展我国会展产业推动经济社会发展

文章介绍了会展业的定义及其发展历程,阐述会展业在促进经济发展、带动社会就业、提高城市知名度等方面的积极作用。 This article introduces the definition of MICE indu

期刊

展业会展产业城市知名度经济贸易经济发展会展世界博览会展会汉诺威世界园艺博览会

关联规则制导的遗传算法在文本分类中的应用

文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点.文本分类旨在将大量文本划分为若干子类,使得各文本子类代表不同的概念主题.文本分类技

会议

一种新颖的基于最有效的跳跃显露模式的分类法

分类是一种重要的数据分析形式。目前，已经有许多种分类方法，但其中大部分都是内存驻留算法，通常假定数据量很小。随着数据库中数据量和维数越来越大，建立高效的、适用于大型数据

会议

跳跃显露模式分类法数据库数据挖掘

基于Markov链的电子商务网站频繁访问路径的发现

随着Internet的飞速发展,基于Web平台的各种应用受到了广泛的欢迎,基于Web平台的电子商务得到了空前的发展.对于一个电子商务网站来说,其拓扑结构蕴含了各个页面之间的关联关

会议

电子商务网站频繁访问路径拓扑结构日志文件用户访问相关页面行为建模网上广告数学基础平台合理布局关联关系应用信息商品浏览保存

基于面向属性规约方法的网页和超链的分类

网络上信息量的剧增,给网站的管理和用户的浏览带来一系列的难题.Web个性化技术,即Web站点根据用户的需求为其提供一对一的服务的技术,正是针对这些难题的解决应运而生的.目

会议

遗传进化神经网络数据挖掘技术

神经网络和遗传算法的结合是当前智能技术研究的重要内容，也是计算智能CI技术的重要组成部分。本文在分析BP算法和遗传算法机理之后，提出了一种遗传BP神经网络数据挖掘技术。由

会议

遗传算法进化神经网络数据挖掘技术应用效果遗传神经网络资源预测智能技术应用前景学习能力搜索能力计算智能鲁棒性组成石油模型机理

一种基于FP-tree的最大频繁项目集挖掘算法

关联规则是由Agrawal等人首先提出的一个重要的KDD研究课题,它反映了大量数据中项目集之间有趣的关联或相关联系.发现频繁项目集是关联规则挖掘应用中的关键技术和步骤.近年

会议

XML数据的存储模式研究

Internet的迅速发展,使其成为全球信息传递和共享的最重要资源,如何利用Internet上的大量信息成为亟待解决的问题.由于Internet上的数据多以半结构或无结构的形式出现,因此传

会议

一种基于最小风险贝叶斯决策的数据清洗策略

与本文相关的学术论文