基于Spark的概念格构建算法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lwm1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
形式概念分析,也叫概念格理论,是Wille R(德国数学家)于1982年提出的。该理论将概念和概念层次以数学化的形式表达出来,已在多个领域得到了广泛应用,如知识工程、信息检索、软件工程等。Qi等人结合三支决策理论和概念格理论。提出了三支概念分析理论。一方面,三支概念分析理论是经典概念格理论的扩展。三支概念可以表达形式背景中“共同具有”和“共同不具有”这两层含义,与经典概念相比可提供更多,更详细的信息。另一方面,三支概念分析也为三支决策理论提供了一种更为具体的模型。根据三支概念的定义,将属性论域或对象论域分为三部分,然后进行三支决策。概念格理论作为一种数据分析的手段,首先需要根据作为数据集的形式背景构建相应的概念格。三支概念分析理论也是如此。在一般情况下,概念格和三支概念格中概念数量的增长是指数级。这样,建格算法的效率就成为决定概念格理论和三支概念分析理论在实际中能否成功应用的关键。传统非分布式的概念格构建算法一般只能处理规模较小的数据集,不能满足日益发展的大数据应用。本文针对经典及三支概念格,设计实现基于Spark的分布式建格算法。首先本文回顾了形式概念分析和三支概念分析的相关定义,以及一些经典概念格的串行构建算法和分布式构建算法。然后借鉴Cbo算法的基本思想,设计了一种分布式经典概念格构建算法,并在Spark平台上实现。Cbo算法采用的是深度优先的搜索策略,然而在集群计算中递归任务是不容易拆分成若干个任务分布到各个节点中计算,因此Cbo算法中的搜索策略并不适用于分布式算法。为了解决这一问题,本文对Cbo算法进行改造,采用广度优先的搜索策略,将Cbo算法中的递归运算改造为迭代运算以适应分布式计算的框架。采用Cbo算法的基本思想以及本文提出的关于三支概念格的性质,以迭代的方式设计分布式三支概念格构建算法;通过Spark提供的一系列对RDDs的转化(Transformation)操作和行动(Action)操作来生成所有的概念,并完成在计算过程的剪枝工作,最终实现基于Spark的三支概念格构建算法。最后,本文对设计的算法进行了实验分析。针对经典概念格,本文将基于Spark平台的算法与基于Hadoop平台的算法进行比较,实验结果表明其效率得到了一定提升。针对三支概念格,本文以k-均匀背景为基础,将基于Spark平台的算法与串行三支概念格构建算法进行对比实验,实验结果表明分布式算法效率更高。
其他文献
大众传播是一种以社会作为空间的最大规模的组织对外传播,其基本特点是"点"(大众传媒)单向流动或辐射到"面",提供的是临摹真实环境的"拟态环境"。大众传播的主要功能是面向社
互联网的快速发展和广泛普及,使网络上文本数据呈爆炸性增长,如何及时准确地从这些大数据文本中获得有价值的信息是学者们研究的热点问题。在此情况下,利用文本聚类对大规模
  动车组长时间运用后,制动系统电磁阀,压力传感器等配件可靠性降低,导致的故障频发。进行了原因分析,并提出了解决对策。
教师的教育理论素养是体现教师专业化的素养。学习教育类课程是教师教育理论素养形成和发展的重要途径,职前教育是教师教育理论素养形成和发展的关键阶段,在职前教育阶段构建具
高分辨距离像(HRRP)含有目标大量的结构信息,且容易获取,处理速度快。因而基于HRRP的识别方法取得了广泛的关注。然而当目标的武器挂载或载荷配置发生变化时,目标的HRRP也会
<正>刘纪原同志领导、组织制定了航天科技工业"七五""八五""九五"三个五年计划,中国航天举世瞩目的一系列成就——新一代武器装备、对外发射服务、载人航天、各种新型卫星等,
患者,女,66岁,主因间断胸闷、气短伴不能平卧4个月,加重10d于2012年04月17日入院。患者4个月前间断出现活动时胸闷、气短,休息后可缓解,夜间平卧后胸闷,右侧卧或坐起后症状减轻。1个
有机非线性聚合物材料是一种新型的电光材料,具有可塑性好、介电常数低、可调性强、器件制作简单等优点,在光学存储和光逻辑运算等方面有着广泛的应用前景。偶氮类非线性聚合物
目的:观察附子理中汤联合莫沙必利给药治疗2型糖尿病胃轻瘫(DGP)的临床效果。方法:选择2014年4月~2015年4月于我院确诊为2型糖尿病胃轻瘫的患者162例,按随机原则分为两组,对
经济—能源—环境政策协调机制的建立是当前各国可持续发展面临的一个关键问题。日本和韩国是先行进入发达国家行列的两个亚洲国家,与欧美发达国家相比,两国在经济—能源—环