【摘 要】
:
德国工业4.0掀起了新一轮的工业革命,推动制造业迈入以智能化为特征的大数据时代。非结构化数据作为制造业大数据的重要组成部分之一,蕴含丰富的应用价值,对智能制造具有重要
论文部分内容阅读
德国工业4.0掀起了新一轮的工业革命,推动制造业迈入以智能化为特征的大数据时代。非结构化数据作为制造业大数据的重要组成部分之一,蕴含丰富的应用价值,对智能制造具有重要支撑作用,因此如何高效管理制造业非结构化数据成为研究的热点。制造业非结构化数据具有格式多样、关联关系复杂、小文件数量多等特性。由于非结构化数据无法直接被解析,现有的制造业大数据管理系统UDMS把非结构化数据的语义作为元数据抽取出来,用HDFS管理非结构化数据,TOTEM管理元数据。然而该系统在管理制造业非结构化数据方面还存在如下问题:1)缺乏能够体现制造业领域的特性的数据模型,难以有效地组织和管理其元数据;2)大量小文件的存储对HDFS造成压力;3)TOTEM查询元数据的效率低下。为了能够更好地管理制造业非结构化数据,本文分别从以下几方面开展研究:首先,结合制造业领域的特性提出数据建模方案,包括特征建模和关联关系建模两部分,利用对象代理模型分别描述数据的特征及其之间的复杂关联关系。其中,特征分为基本特征、物理特征和语义特征;关联关系主要包括文件与实体之间的包含关系、实体之间的组合和约束关系以及文件之间的顺序关系。然后,针对HDFS小文件存储的问题提出了基于关联性的小文件合并方法。基本思路是通过综合考虑文件关联性和存储空间利用率对小文件进行聚类,将簇内的小文件合并成一个大文件存储在HDFS中。此外,设计了支持小文件合并的增删改查操作。接下来,针对TOTEM跨类查询效率低的问题,对其核心的路径表达式计算提出了关联查询索引方法。该方法利用倒排索引的思想存储了文件之间的代理关系,并且支持带谓词条件的路径表达式计算。此外,针对索引的维护提出了批量维护策略。最后,在UDMS系统中实现了上述建模和优化方法,并进行了功能和性能的测试。测试结果表明,基于关联性的小文件合并方法可以有效提高HDFS的存储利用率和查询效率,关联查询索引方法可以大大减少路径表达式的计算时间,从而提升TOTEM的查询效率。
其他文献
在过去十几年中,金融市场、实体经济与公共财政呈现出愈来愈紧密的联系。在2008年次贷危机中,由于受到金融危机与金融冲击的影响,各个经济体的公共债务规模受到了显著影响。从欧债危机爆发来看,欧洲经济体的公共债务受到了金融危机的显著影响。在2008年金融危机前,受到信贷扩张驱动以及房地产繁荣的影响,欧洲许多经济体的财政收入大幅增加,但这些经济体没有显著地削减本国的公共债务,在金融危机时,这些国家为刺激经
随着我国电网的蓬勃发展,高强钢输电塔的应用已成为必然趋势,其结构安全的重要性也日益明显。输电塔在实际服役过程中,由于酸雨和风力等的作用,实际处于疲劳-腐蚀疲劳交替的
随着工程建设需求量日益增加,集料需求不断增大,同时因环保发展因素,砂石的开采成本增加,而且砂石的品质有不断降低的趋势。集料质量的不稳定是目前主要的问题,其中最明显的
瑞士、美国等发达国家在上个世纪八十年代左右开始将CFRP(碳纤维复合材料)应用于建筑加固,我国在本世纪初也开始了CFRP加固技术的研究。目前国内外主要的CFRP加固混凝土梁方
随着走出去战略和一带一路战略的实施,我国正在从以吸收外资为主转向吸收外资和对外投资并重的阶段,尤其是对外直接投资近年来呈现出了迅猛发展的态势,技术获取已成为主要的
我国经济的发展,带动了木材的年进口量的逐年增加。我国在短短十余年内,木材消耗量就提升了 200%,这一数据足以说明我国已成为最大的木材消耗和进口国之一。当前我国的木材消
近年来随着国务院“水十条”的颁布,人们对城市河流水环境愈发重视。城市河流是一个城市生态系统的重要组成部分,但是由于城市化进程的发展,城市河流生态系统收到严重破坏,水
猪瘟(Classical swine fever,CSF)是由猪瘟病毒(classical swine fever virus,CSFV)引起猪的一种高度接触性、致死性传染病,是世界动物卫生组织(OIE)要求必须申报的动物烈性传染病
水稻从生长发育到成熟收获会遭受病原物不同程度的危害,稻瘟病被称为水稻的―癌症‖,影响到水稻产量和品质。MicroRNAs(miRNAs)是真核生物生长发育和防御不可或缺的一类长度为2
本论文以内蒙古煤沥青(CTP)为碳源,分别以KOH和K2CO3作为活化剂制备多孔碳(PCs),研究活化温度对PCs结构的影响,分析微观结构和表面特性与电化学性能之间的联系,并探究了活化时间