基于概率图模型的数据清洗

被引量 : 0次 | 上传用户:dotnetgroup
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大量的数据被用于提供服务和支持决策,数据质量越来越受到人们的关注。然而,用户的录入错误、企业的合并、从互联网上抽取信息等等都可能产生“脏数据”,从而影响数据质量,解决这些问题的过程被称为数据清洗过程。传统的数据清洗方法通过填补缺失数据、检测并删除错误数据等方式提升数据质量,但它们通常需要提供完整性约束、函数依赖、专家知识等特定的领域知识。对于缺少领域知识的情况,传统的方法并不奏效。因此,在缺少领域知识的情况下,如何对“脏数据”进行清洗就成为当今数据质量管理的一个挑战。值得关注的是,缺失数据或错误数据等“脏数据”在数据库中所占比例一般不会太大,所以数据库中的正确数据基本上能够反映整体数据之间的依赖关系。如果能够获取这些依赖关系,就可以利用它们对“脏数据”进行清洗。贝叶斯网络作为一种最重要、最流行的概率图模型,被广泛用于表示数据之间的依赖关系。利用贝叶斯网络表示不完整数据库中各属性间的依赖关系,就可以通过贝叶斯网络的推理计算出缺失数据可能值的概率分布。贝叶斯网络还可以表示数据库中查询的输入数据、查询过程产生的中间数据及输出数据之间的依赖关系。在已知查询结果不正确的情况下,可以通过构建该查询对应的贝叶斯网络来检测输入数据中包含的错误。本文将针对缺少领域知识条件下的数据质量管理问题,研究基于概率图模型的数据清洗方法,主要研究内容可概括如下:(1)扩展了传统的利用依赖分析来学习贝叶斯网络的方法,以适应包含缺失数据的数据库,提出一个从不完整数据库中学习贝叶斯网络的方法。(2)提出了一个基于吉布斯采样的贝叶斯网络近似推理算法,用于计算缺失数据的可能值的概率分布,并利用该概率分布清洗缺失数据。(3)针对数据库中输出结果异常的查询,提出了一个构建用于表示输入数据、查询过程产生的中间数据、输出数据之间的依赖关系的贝叶斯网络的方法。(4)借鉴因果关系中的Responsibility&B1ame,制订了一个度量贝叶斯网络中各个节点对查询结果贡献大小的标准,然后利用它来检测错误数据。(5)实现了本文所提出的算法,并进行了初步的实验,验证了本文所提方法的有效性及可行性。
其他文献
目的探讨导致乳腺癌术后巩固化疗患者的感染情况,并对其影响因素进行相关性分析,同时提出相应的干预措施。方法分析乳腺癌术后巩固化疗232例患者的感染情况,并收集感染者的临
森林是维系生态平衡的重要资源,林业是我国重要的基础产业,承担着国家经济、生态环境、社会发展的重要任务。本文在总结国内外林业产业发展相关研究的基础上,通过文献收集和实地
发动机滑油系统是影响飞机飞行安全的重要系统。本文通过对某型飞机发动机滑油压力低故障排故过程的描述,总结了失败和成功的排故经验,揭示了滑油系统流量分配的重要性,对飞机外
自1978年中国共产党第十一届三中全会确立了“以经济建设为中心,坚持改革开放,坚持四项基本原则”的路线、方针、政策以来,中国的基本经济制度和基本经济面貌都发生了翻天覆
字本位理论从提出到发展至今已二十年有余,然而只有少数人理解支持并进行实践,至今依然是无人问津的“少数派”。近代西方理论自《马氏文通》引进后对汉语教学有一定的影响和
近年来,非遗保护是关于文化遗产的热门词条,全国各地都积极踊跃地通过各种形式展示属于自己的文化瑰宝。尤其在文化创意产业的大背景下,非遗保护已从传统的静态保护转向了与活态
实习生教育教学技能的获得及教育实习成效很大程度上取决于教育实习指导的质量,特别是幼儿园教育实习指导教师的指导质量。然而,目前幼儿园教育实习指导教师对学前教育专业本
1.研究目的:通过观察用加味济川煎治疗48例老年脾肾两虚型便秘的临床疗效,并同中成药麻仁丸的疗效进行比较和分析,从而进一步了解加味济川煎治疗脾肾两虚型便秘的可行性和有效性,
本文研究了长期慢性热应激对猪只呼吸率、生产性能、消化率、唾液和血液皮质醇、血液抗氧化指标、血常规、肠道形态结构、肠道通透性、肠道内消化酶活性、空肠黏膜AKP活性以
北京图书馆所藏北宋刻递修本《文选注》,是目前所存刊刻年代最早的李善单注本,具有很高的文献价值,但目前尚未受到充分重视。笔者近来因从事《文选》音注的研究,有事专程到北图查