面向数据密集型计算的贝叶斯网并行学习与增量维护

被引量 : 0次 | 上传用户:Angel____
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
贝叶斯网(Bayesian Network, BN)作为一种被广泛使用于不确定性知识表示与推理的概率图模型,在数据与知识工程领域扮演着重要的角色。BN学习是利用BN进行不确定性知识表示与推理的前提与基础,而从数据中学习BN则可以有效地避免和修正因为专家知识的主观性与片面性所带来的问题。随着Web应用的普及和信息采集技术的进步,人们生产与收集的数据呈现出大规模、分布式存储、动态变化等特点,而传统的BN学习方法已无法适应海量数据这些特点的要求。在这一背景下,数据密集型计算的提出,特别是MapReduce编程模型的提出,为海量数据的管理与分析处理提供了良好的技术支撑,使得从海量数据中学习并维护BN成为可能。针对海量数据大规模与分布式存储的特点,本文基于MapReduce对传统BN学习中的打分搜索方法进行分析研究后对其中关键步骤进行扩展,提出数据密集型计算的BN并行学习方法。BN的并行学习分为2个阶段:参数学习阶段和结构学习阶段。在参数学习阶段,我们通过map和reduce过程并行对海量样本数据进行分析统计,从而获得为结构学习所需的参数。在结构学习阶段,利用参数学习阶段所得参数对各节点的候选结果并行进行评分,选取得分最优的候选结构作为对应节点的局部最优候选结构。最终各节点的局部最优结构合并得到全局最优结构,即从海量数据中学习得到BN。针对海量数据动态变化的特点,本文基于MapReduce对传统BN增量维护方法进行扩展,提出数据密集型计算的BN增量维护方法。我们通过map和reduce过程对新数据并行进行读取,获取新数据对应BN的相关概率参数,并在概率参数的基础上计算新数据与BN中各节点的不一致程度。接着,根据各节点与新数据之间不一致程度,选取需要重新学习的节点采用BN并行学习方法进行重新学习,获得局部BN结构。最后,我们将局部BN结构与初始BN进行合并,得到增量维护的BN。本文所提出方法均在Hadoop平台上进行正确性与执行效率方面的实验,实现结果表明我们的方法可以正确高效地从海量数据中学习获得BN。
其他文献
随着信息技术的普及,信息化技术用于工程项目管理,给常规工程项目管理带来了一场大的变革。如何将信息化技术科学化、系统化及人性化地运用到工程项目管理的各个环节之中,已经成
文学具有重要的认识作用、教育作用和审美作用。正是这些作用,使学校文学教育不可或缺。初中语文课程文学知识作为初中文学教育的一部分,它承担起了培养初中学生文学素养的责任
随着电子信息技术的迅速发展,天线的小型化和宽带化成为通信中急需解决的问题。本文主要研究了用于UHF频段和S频段的阿基米德螺旋天线的小型化,宽频带,圆极化问题。在理论分析的
研究背景:神经内分泌肿瘤(neuroendocrine carcinoma NEC)是一类来源于机体神经内分泌系统的异质性肿瘤,在临床上较为罕见,有文献报道约占消化道恶性肿瘤的0.4%-1.8%,发生在胃的神
在市场竞争日益白热化的今天,各个地区各个地域之间的竞争已经不仅仅局限在以单纯的经济、文化之间的竞争,而是向着以城市为单位的综合实力之间的竞争转变。越来越多的学者开始
写作过程是一种复杂的心理过程,它是人们语言表达能力的重要体现。初中作文教学以记叙文写作教学为主体,历年中考语文作文试题也以记叙文为主。因此,记叙文写作水平的高低既是学
旧城内的传统商业街区是城市特色商业、休闲游憩、文化传播等多功能为一体的特殊空间载体,体现着城市历史文化与民俗风情的独特魅力。然而在现代社会,中国传统文化在受到日韩
90年代以来,随着经济全球化进程的日益加快和市场竞争的日趋激烈,战略管理已成为商业银行管理的核心,商业银行“确立基本战略成为生存的关键”。最早把战略成功应用于企业经营领
随着中国与世界交流的日益频繁,所使用的英语已经不局限于一般的日常交流,在这样国际化的大背景下,对专门用途英语课程的教学有了更高的要求,对其进行改革和发展,顺应时代的
本论文主要研究名人故居这一特殊的人物纪念性空间的保护与展陈设计方法。首先对北京旧城区9处名人故居纪念馆,分四类进行对比、分析、总结,找出其共性与特殊性;针对名人故居