面向数据密集型计算的概率图模型构建方法及实现

被引量 : 0次 | 上传用户:konglingdao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在不确定性知识表示和推理领域,贝叶斯网(BN, Bayesian Network)作为一种重要的概率图模型,基于概率推理的图形化网络,是统计型不确定性知识表示和推理的基本框架。从目前不确定性知识表示的现有方法和技术来看,传统的贝叶斯网学习停滞在单机环境,当从数据密集型数据中学习BN时,出现了如数据存储能力低下、数据扫描速度慢、计算速度慢、学习数据不够灵活等问题,因此,如何从数据密集型数据中学习BN具有重要的研究意义。近年来,随着数据密集型计算的发展,其在处理海量、快速变化、分布和异构的数据方面,已经取得了一些重要的成果,这为面向数据密集型计算的概率图模型提供了一定的技术支撑。同时,随着云计算技术应用的不断扩展,人们日益关注并研究了云计算环境下数据密集型数据的管理和分析,同时Hadoop作为一种重要的云计算平台,其HBase云数据库具备海量数据的存储能力,而MapReduce编程模式能够快速的处理海量数据,从而使得利用Hadoop云计算平台从海量数据中学习BN成为可能。以Hadoop为云平台,传统BN为支撑理论,为实现海量数据的BN学习,本文的主要完成了面向数据密集型的概率图模型构建方法及实现的相关工作,其中包括数据预处理、BN结构学习、BN存储三个部分,具体如下:·基于MapReduce的数据预处理,我们改善了数据存储的方式。对海量数据先以MapReduce进行统计,之后再存储于HBase云数据库中,有效的压缩了数据存储量。同时,从HBase中读取压缩后的海量数据样本,利用MapReduce快速计算出构建BN所需的边缘概率值,结果存储HBase中,为后续的BN学习提供概率表支撑。·基于MapReduce的BN结构学习,我们分析并拓展了传统BN构建的爬山算法、最小描述长度(MDL, Minimal Description Length)评分,并使其适用于Hadoop平台,从而能够快速、高效地进行BN的学习。·基于HBase的BN存储机制,我们设计了特定的BN存储结构,同时计算好BN对应条件概率表(CPT,Conditional Probability Table),存储于HBase中,为后续的贝叶斯网推理提供技术支撑。
其他文献
长期以来,初中英语语法教学存在着明显的不足。学生对于学习语法缺乏兴趣和热情,课堂上毫无生气,学生大多处于一种被动的接受式学习。追根溯源,主要原因在于在传统的语法课堂的教
弗洛姆认为,现代资本主义社会已经由“生产时代”发展到“消费时代”,异化也由原来的“劳动异化”深化为“消费异化”。“消费异化”是现代资本主义特有的产物,它的产生有深
重庆绕城高速公路是“7918”国家高速公路网西部开发省际通道的重要路段,它与内环高速公路及8条射线高速公路构成了基本的交通保障,是实现重庆“半小时主城区”、“一小时经
<正>"我砍人了,我来投案自首了,请你们保护我呀……"王德武一路小跑,气喘吁吁地来到老城镇司法所大声嚷嚷。突如其来的喊声惊动了正在调解案例的杨善泽和陈少伟还有麦吉桐。
数学的抽象性,决定了数学思维的核心形式是抽象思维,数学教学的根本问题是抽象思维能力的培养问题,对于农村职业学校的学生来说,培养他们的抽象思维能力显得尤为重要。农村中职学
为给超高分子量聚乙烯(UHMWPE)齿轮的承载能力计算及校核提供理论依据和参考,本文以UHMWPE的非线性黏弹性为基础,采用了黏弹性力学模型和超弹性力学模型(Arruda-Boyce模型)相结合
古琴,作为我国传统音乐中极具代表性的一种乐器,一千五百年来一直被士所推崇,二者互为作用共同形成了了异常深厚而又丰富的文化积淀,并成为融合中国古典哲学、文学、史学等传
随着国家可持续发展能源战略的实施,风电场的数量和规模都将快速增长。针对当前风电场计算机监控系统在适应性、开放性、扩展性等方面的不足,提出了一套遵循IEC61850“三层两网
公共艺术,是当下众多城市关注的领域,是城市管理者加强城市文化建设、提升城市美誉度的重要举措。市民的生活环境也因公共艺术的发展得到了改善和美化。公共艺术在中国的学科背
在我国开展节能减排与发展低碳经济的时代背景下,大力发展新型能源发电形式、优化调整电源结构成为电力行业积极响应国家政策、履行社会责任的必然选择。在各类新能源中,风力