【摘 要】
:
贝叶斯网(BN)作为一种重要的概率图模型,是统计型不确定性知识表示和推理的基本框架.如何从海量数据中学习BN,是目前云计算环境下海量数据中不确定性知识推理及相关应用的基础和关键.本文利用Hadoop平台,设计并实现了CloudBN这一基于云计算的概率图模型学习系统.CloudBN以BN结构的学习为核心,首先将海量数据存储于HBase中,然后将传统的BN打分搜索学习方法扩展到并行环境,基于MapRe
【机 构】
:
Department of Computer Science and Engineering, School of Information Science and Engineering, Yunna
论文部分内容阅读
贝叶斯网(BN)作为一种重要的概率图模型,是统计型不确定性知识表示和推理的基本框架.如何从海量数据中学习BN,是目前云计算环境下海量数据中不确定性知识推理及相关应用的基础和关键.本文利用Hadoop平台,设计并实现了CloudBN这一基于云计算的概率图模型学习系统.CloudBN以BN结构的学习为核心,首先将海量数据存储于HBase中,然后将传统的BN打分搜索学习方法扩展到并行环境,基于MapReduce实现了海量数据中BN的并行学习.介绍了CloudBN的系统结构和相关技术,给出了系统功能和性能的演示.CloudBN充分利用了MapReduce和HBase等云计算支撑技术的海量数据处理能力,实现了海量数据环境的高效BN学习,有效解决了现有BN学习方法不能适用于海量数据的问题.
其他文献
伴随语义网的发展,语义网本体数量激增。然而万维网上绝大多数的数据仍存储在关系数据库中。建立关系数据库模式与语义网本体间的映射是一种实现两者之间互操作性的有效途径。因此,提出了一种基于语义的关系数据库模式与OWL本体间的映射方法SMap,包含简单映射发现和复杂映射学习两个阶段。在简单映射发现阶段,首先通过逆向工程规则将关系数据库模式和本体中的元素对应地分为不同类别,再为每个元素构建虚拟文档并计算它们
数据的时效性问题是影响数据质量的重要因素之一。时效性差的数据会对企业决策和人们的日常生活带来许多不利影响,这使得判定数据的时效性成为必要。许多应用数据库中都没有完整、清洁、可用的时间戳,从而导致数据时效性的判定非常困难。冗余记录和时效约束能够在时间戳缺失的情况下有效地辅助恢复数据的时序关系,因而能够帮助数据时效性的判定。文中研究包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性
基于位置的服务(LBS)变得日益普及,越来越多的研究开始关注如何对空间中的兴趣点(POI)做有效的检索。现有的方法提出了空间数据上的关键词检索,研究如何根据查询的位置和关键词找到相关的POI点。然而,现有方法主要对查询关键词进行精确匹配,不能支持模糊查询:当查询关键词与底层数据存在微小差异的时候,LBS系统不能返回相关的结果。为了满足移动用户的模糊查询需求,文中对空间数据上的Top-k关键词模糊查
数据流中的数据分布随着时间动态变化,但传统基于事务的滑动窗口模型难以体现该特征,因此挖掘结果并不精确.首先提出时间敏感数据流处理中存在的问题,然后建立基于时间戳的滑动窗口模型,并转换为基于事务的可变滑动窗口进行处理,提出了频繁项集的挖掘算法FIMoTS.该算法引入了类型变化界限的概念,将项集进行动态分类,根据滑动窗口大小的变化对项集进行延迟处理,仅当项集的类型变化界限超出一定阈值的时候才进行支持度
关系数据库中的关键词搜索技术已经成为信息检索领域的研究热点,它为没有任何SQL语法知识的用户提供了一个简单友好的接口.但是现存的关键词搜索系统主要依赖于数据图或模式图,而单独使用数据图或模式图的算法搜索效率不高,结果准确率也较低.设计实现了一个Top-k关键词搜索系统(keyword search system based on database graph and schema graph,KW
该文提出了一种基于维基百科结构信息的语义关联度的计算方法--WikiStruRel(WSR).维基百科作为目前规模最大和增长最快的在线百科系统,其典型包括两个网状结构:文章网络和分类树(以树为主体的图),这两个网状结构包括了丰富的、明确定义的语义知识.WSR充分分析维基百科的文章网络和分类树,进而计算词语间的语义关联度.该方法没有涉及文本处理,算法开销较小,在3个数据集上的实验,取得了较好的准确率
社会媒体应用已成为Web应用的主流,以用户为中心并且海量媒体数据由用户自生成是社会媒体Web应用的重要特征。应对目前社会媒体环境中信息过载的问题,信息的共享和推荐机制发挥着重要的作用。文中分析了目前主流社会媒体网站基于用户自建组的信息共享机制所存在的问题以及传统推荐技术在效率上的问题,提出了一种新的基于用户偏好自动分类的社会媒体数据共享和推荐方法。直观上讲,该方法的本质是把用户对具体媒体对象的偏好
当前很多的数据管理应用都需要从多个数据源集成数据,每个数据源都会提供一组值,并且不同的数据源常常提供相互冲突的数据值。为了提供给用户高质量的数据值,关键是数据集成系统能够解决数据冲突问题,提取出正确的数据值。文中对已有的真值发现算法进行了分析与总结,通过考虑处理同一个值的不同表现形式和改进的选票算法,作者对现有方法给出了改进,改进后的方法可以更有效地在众多冲突数据中找出正确的数据值。
MapReduce是一种应用广泛的并行编程模型,Hadoop是MapReduce的开源实现。为了满足不同类型的MapReduce作业对任务分配策略的特殊需求,在深入分析Hadoop固有任务分配机制的基础上,设计并实现了一种可扩展的任务分配模块,用户可以根据作业的特性实现并加载自定义的任务分配器。在可扩展的任务分配模块的基础上实现了两个典型的任务分配器,实验结果表明使用可扩展任务分配模块并加载适用于
在对海量数据的查询执行中,高效地存储中间结果是提高查询效率的重要手段之一。现有的列存储系统大都主要关注于如何选择合理的物化时机来提高查询效率,而忽略了对中间结果的有效管理。首先,为了减小查询执行过程中中间结果的大小,提出了一种自适应划分字对齐混合位向量压缩方法,运用该方法存储中间结果,可大大减少传递块的数量,提高缓冲区利用率;其次,实现了直接对传递块上的压缩位向量进行逻辑运算的方法,有效地提高了多