一种蒙特卡罗贝叶斯分类的改进方法

被引量 : 0次 | 上传用户:bushliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展和数据库技术的广泛应用,人们积累的信息越来越多,如何从海量的信息中提取我们感兴趣的知识,是当前社会面临的一个严峻的问题。知识发现技术随时代的发展应运而生,成为目前较热门的研究课题之一。知识发现(KDD)能够从数据库中识别出有效的、新颖的、潜在有用的、以及最终可理解的信息。数据挖掘是知识发现的一个核心环节,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。 分类是数据挖掘的一个重要内容,它通过构造一个分类函数或分类模型(也常称作分类器),把数据库中的数据项映射到给定类别中的某一个,从而能够使用该模型来预测类标号未知的对象类。在众多的分类方法中,贝叶斯分类以其简单的结构和良好的性能而备受关注。与其它分类方法不同,贝叶斯分类建立在坚实的数理统计知识基础之上,基于求解后验概率的贝叶斯定理,理论上讲它在满足其限定条件下是最优的。 蒙特卡罗是一种采用统计抽样理论近似求解数学或物理问题的方法,它在用于解决贝叶斯分类时,首先根据已知的先验概率获得各个类标号未知类的条件概率分布,然后利用某种抽样器,分别得到满足这些条件分布的随机数据,最后统计这些随机数据,就可以得到各个类标号未知类的后验概率分布。运行一个特定的马尔可夫链可以容易地获得满足某个特定分布的随机抽样,所以马尔可夫链蒙特卡罗(MCMC)是最常用的蒙特卡罗贝叶斯分类方法。 MCMC可以减少数据挖掘中的时间和空间开销,但对于巨型数据集,MCMC在计算方面也不切实际。本文通过改进MCMC算法,使它能够用于巨型数据集的挖掘。该算法对数据集进行划分,改变MCMC对数据集的扫描策略,将其分开为内、外两个循环过程,外循环中扫描数据集,内循环扫描分布函数的抽样值。另外,本文还评估了抽样效率和有效抽样容量等问题,使用了极小量过滤方法,进一步增强了对巨型数据集的数据挖掘的实际操作能力。
其他文献
协调评价作为一种评价职能,是围绕整体发展目标对系统整体中各种活动的相互联系进行分析、评价,最终指导各系统协同发展,使这些系统活动有机地结合在一起,减少冲突、协调发展
目的:本课题旨在观察补肾强筋手法治疗肝肾不足型绝经后骨质疏松症的临床疗效,探讨补肾强筋手法的疗效依据,为临床治疗肝肾不足型绝经后骨质疏松症患者提供安全、有效的推拿手法。方法:于2017年12月至2019年3月期间,从云南省中医医院推拿科门诊及住院部,将符合诊断、纳入、排除标准的肝肾不足型绝经后骨质疏松症患者68例。经过计算机随机数字表随机化分组,设立对照组(仙灵骨葆胶囊联合钙尔奇D组)34例,脱落
近年来家庭内部资源配置的性别差异问题逐渐受到学术界的广泛关注。国内外众多研究结果表明,家庭内部资源配置的性别不平等问题表现在教育、医疗、财产所有权分配等众多方面,
为了解三峡库区军团菌病的流行状况,于2001-2004年开展了三峡库区人群军团菌感染血清流行病学调查及病原菌分离研究。1.材料与方法:①以2002年到涪陵区疾病预防控制中心进行
磁性元件是功率变换器系统的重要组成部分,为了更好地发挥磁性元件的功能,必须深入地了解磁性元件的损耗问题。众所周知,磁性元件损耗分为磁损和铜损两部分。本文首先分析了功率
2008年是中国企业改革30年。回顾这30年的历程,如果说导入市场经济、重视企业管理和树立顾客是上帝的理念是中国经济发展的最大收获,并促成了一大批成功企业的话,那么,未来几
如今,我国经济发展业已进入新常态,无论是发展现代农业、促进农民增收还是建设新农村,都与农村土地有千丝万缕的联系,农地问题可称得上所有农村经济发展的核心,土地不但是社
翻译心理过程的研究是整个翻译学科中不可或缺的部分,却一直是整个学科研究中比较薄弱的一块。本文试图从认知心理这个角度来探索被称为“黑匣子”的翻译心理过程,并通过描述整