CMS实验元数据的数据发现的研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ljhhck123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据的来临,网络技术和数据管理技术的快速发展,不同的行业,不同的部门都积累了大量应用和数据等资源。位于CERN的大型强子对撞机上的CMS实验,每年产生6PB的数据的同时将新累积1TB的元数据。数据量大,类型多,数据之间的关系复杂,这就意味数据的索引元数据信息也越来越多,为用户提供相同数据的不同角度的索引,因此,研究与开发性能高效的、界面友好的查询系统,帮助物理学家发现感兴趣的信息是非常重要的研究课题。  论文详尽分析了物理学家需求,研究了在CMS实验的异构分布式的网格环境下,改进用户数据发现方式的解决方案,提出了一个数据发现模型,并基于此模型设计和实现了CMS实验的数据发现框架。该框架的核心是一个面向数据聚集的缓存中间层,它将来自用户的基于实体的关键词查询映射为一系列的面向现有数据服务的API调用,通过对获取数据的聚合提供给用户一个准确的查询结果。本文重点关注了其中的关键词查询到结果的映射、缓存系统的优化和数据服务API的补充三个关键问题。论文主要有以下贡献:  (1)针对用户对CMS实验领域内实体的理解,提供一个基于实体的查询语言,将用户的数据发现转化为依据实体间关联的查询。将数据服务的API表示为实体间的关联节点,同实体一起构成了一个实体关系图。用户的数据发现最终变成了在该实体关系图上的路径查询。  (2)对用户的历史查询进行了统计分析,提出了基于历史统计的缓存策略,提高缓存的命中率,改进用户的查询体验。并且在提高用户查询效率的同时,降低对数据服务的开销。  (3)针对核心元数据服务(存储方式为关系型数据库)结构及查询方式复杂的情况,提供了一个关键词的查询接口,它可以为数据聚集工作提供丰富的API。针对提供关系数据库之上的关键词查询的问题,采用了模式图查询来将关键词查询翻译为SQL语言的解决方案,提出了两个算法:模式图的分析算法(可以应对模式图的更改)和连接动态生成算法。  论文基于提出的数据发现框架,实现了一个CMS实验的数据聚集系统,该系统现已提供给上千的物理学家进行数据查询服务;设计和实现了该数据聚集系统的分析服务器,应用基于历史统计的缓存策略,命中率可以达到90%以上。实现了一个关系数据库的关键词查询系统,并在CMS实验的数据库上进行了部署实验。同时,将其作为插件为CMS实验关键元数据服务(DBS)提供了关键词查询接口。经测试,对于相同的查询,该查询接口和常规的查询API相比没有性能上的损失。
其他文献
连续时间马尔科夫链(CTMC)在网络性能分析、模型检测和系统生物学等领域受到了广泛的关注。本文关注以连续时间马尔科夫链为模型、以条件连续随机逻辑(CCSL)为性质描述语言的
随着汽车工业的快速发展,以车辆作为网络节点的城市车辆网络(VANET)越来越受到学术界和工业界的青睐,如美国的ITS[1]、欧洲的CAR2CAR[2]和SVC[3]等。城市车辆网络作为移动自组织
重复序列在基因组中普遍存在,大量实验证实其在生物进化、遗传调控和基因表达等方面起着重要作用。目前,重复序列的发现与识别技术已经成为基因组学的研究热点。成簇的规律间隔
三角网格模型是表示三维模型的常用手段。随着计算机扫描技术和遥感技术的不断发展,三角网格模型的规模和分辨率不断提升,导致表示三角网格模型的文件的规模不断增加,给模型的存
随着我国汽车数量的不断增多,传统的人力管理由于效率低下,已经无法满足高密度的现代交通需求。以车辆车牌识别为主要手段的视频道路监控技术,是现代智能交通系统(Intelligent T
在日常生活中,记录生活日志是很有意义的。首先,记录生活日志有助于个人进行时间管理。其次,记录生活日志可以帮助其他人更好的了解自己。另外,通过记录个人的生活日志,也为分析个
本文针对长途客车运行中存在的“三超”(超述,超载,司机超时疲劳驾驶)和“三私”(私自组客,私收票款,私拉乱运)等问题,通过建立车载视频监控系统,完成对长途客车的实时监控和管理,而在车
为加深人类对日地空间的深入了解,各国研发出大量空间环境模型对空间环境进行仿真模拟和预警预报。在此基础上,逐步建立了集成多空间环境模型并对模型计算结果进行可视化展现的
数据可视化技术能够将各种繁杂的数据转换成直观的图形和图像,从而显示数据之间的相互关系,揭示隐藏在大量数据背后的规律,为科学研究提供辅助分析手段。随着计算机性能的飞速发
随着多媒体设备的广泛使用以及视频和图像应用开发的普及,视频和图像数据呈现了爆炸式增长,数据的有效存储和从这些数据中自动挖掘出有用的信息帮助我们更好地生活变得尤为重要