大规模知识图谱的分布式存储与检索技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qq7758521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式存储是应对数据集合快速增长采用的一种方式,社会的发展伴随着数据的快速增长,也必然面临数据集合的存储问题。本课题在关系型数据集合分布式的基础上,按照知识图谱数据构造的特性,采用基于词汇语义平均相似度及节点平均度数的方法来分割数据集合,不仅考虑了服务器负载上限还考虑了跨越不同服务器的节点关系的冗余。子图检索结合此数据结构分割的特点,采用节点度数递减剪枝的方式,把查询子图剪枝成多个高度为2的子树,最后以子树的形式进行查询比对。系统结构设计分为两部分:分布式存储、子图检索。分布式存储部分主要是按照此文提出的拆分方法来对数据集合进行分割;子图检索的主要步骤为:先对待查询的子图根据数据集合分布的特点分割成只包含根节点及叶子节点高度为2的子树,接着对所有子树的根节点进行查询,得到包含与此根节点并与其有关系的所有节点组成的树,然后与查询的2级图比较且得出结果。此系统子图检索实验结果显示,在此课题中提出的数据集合分割方法下,分布式存储的子图检索所用的时间要少于哈希分布式存储方法;在节点关系冗余的情况下,结合子图查询的特点,冗余时的查询时间要小于非冗余情况;哈希分布式方法的冗余大于此课题采用的数据集分割方法,冗余数据量更多,需要更多的存储空间,子图查询时也需要更多的时间消耗。
其他文献
混凝是水处理的重要手段,对下游工艺如沉淀、过滤、消毒、膜处理甚至生物处理等影响深远。前置混凝分离生物处理组合工艺是对污水进行强化混凝预处理,降低水中难降解有机物、总磷、有机氮,调节水质,使之适应后续生物处理的工艺。该工艺在提高反应效率和工艺灵活性、适应性的同时,大大降低了设施容积,降低了构建成本,是极具潜力的水处理工艺。但温度对混凝过程影响很大,常温(1530℃)下效率一般较高,但低温对此工艺产生
新中国成立后,毛泽东基于对世界历史的分析和判断,不断调整中国与外部世界的关系,先后两次引导中国从世界体系撤离。第一次以新中国的成立为标志,中国从世界资本主义体系中脱
据中国互联网络信息中心的统计显示。截止2004年6月底,我国互联网用户数已达8700万,位居世界第二位;上网计算机3630万台,WWW网站数62.66万个,CN域名38.22万个,互联网国际出口总带宽达
温家宝总理日前主持召开国务院常务会议,讨论《国务院关于深化改革严格土地管理的决定》,要求认真做好以下几项工作。
虽然企业伦理学正在成为一门显学,企业伦理已经日益成为好企业的标志之一,成为企业经营管理理念和行为的重要组成部分,但是,这并不等于说,要把企业伦理强调到无时不在、无处不在、
<正> 自一九三二年首次发表马克思的《经济学——哲学手稿》以来的将近半个世纪中,异化问题一直是西方各种哲学流派竞相争议的课题,“异化热”久而不衰。近年来,如何评价马克
指数的作用本来是帮助投资者了解股市中整体股价的运行状况,通过对指数分析了解股市的涨跌情况和发展趋势,并且利用指数的走势图进行趋势分析、形态分析、周期理论分析及其它技
在现实生活中,制度变迁并不总是一种合意的变迁,实际上是存在着一个“中性”与“非中性”的变迁问题。制度变迁“非中性”是指:同一制度对不同的人意味着不同的事情,在同一制度下
<正> 王氏《经传释词》论证精审。许多解说,穷幽探赜,深中肯綮,成为不刊之论。但也有可议之处,章太炎、裴学海已有所补订。这里札记所及,略抒一得之见。下面先引王说,后申己