基于知识图谱的Github项目库推荐研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:WSLBCW
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于软件开发开源、共享的精神,以GitHub为代表的开源软件代码托管和软件开发知识问答平台迅速发展并受到了众多开发者的青睐。这些平台积累了大量的高质量软件开发领域相关代码和知识,但是这些知识过于分散,难以固化,知识共享、传播的效率较低,影响开发者对知识的利用。为了解决开源知识的信息过载问题,本文对基于知识图谱的GitHub项目库推荐进行了研究,根据用户偏好个性化推荐项目库,同时利用知识图谱中的层次性知识提高推荐效果,实现开源软件知识的主动传播。然而,在基于知识图谱的GitHub项目库推荐研究方面仍存在以下问题:(1)GitHub知识图谱中存在大量的引导节点,该节点与其他实体之间存在丰富的关联关系,然而现有方法没有考虑到引导节点对推荐效果产生的积极作用,导致在捕获用户偏好的过程中容易受其他实体影响,产生低质量和有偏差的用户个性化表示。(2)传统的基于知识图谱的单一结构网络学习模型没有充分利用用户-项目交互的时间依赖性和易变性,无法对隐藏在实体中的时间和结构信息进行有效融合,同时没有考虑到用户-项目二分网络作为时变系统,其时间与结构信息之间的交互机制,降低了推荐准确性。因此,为解决上述问题,针对基于知识图谱的GitHub项目库推荐,本文进行以下研究:1.提出了基于引导节点图卷积神经网络(Guided Node Graph Convolutional Neural Network,GNGCN)模型。该部分研究探索了引导节点在知识图谱推荐任务中的积极作用,该模型通过挖掘相关节点的影响力有效地捕捉到实体之间的联系。在知识图谱中提取每个实体的邻域样本作为它们的引导节点,然后在计算某个实体的表征时结合引导节点的信息和偏向,并扩展到多跳,实现模型的卷积和聚合。2.在基于引导节点图卷积神经网络的基础上提出了基于动态属性增强图卷积神经网络(Dynamic Attribute Enhancement of Graph Convolutional Neural Network,DAEGCN)模型。本文在该部分提出的混合推荐模型DAEGCN将时间模式的识别描述为一个项目流行度增长的预测问题,利用时间序列分析来解决,并将其与基于知识图谱的图卷积神经网络结合,充分对结构信息和时间信息进行了挖掘与融合。3.本文根据构建的推荐模型设计并实现了基于知识图谱的GitHub推荐平台。平台可以自动爬取GitHub实体知识,为模型实验提供数据集。平台根据用户交互行为建模计算结果进行推荐,返回推荐结果。平台为用户提供了知识检索功能,根据用户输入返回知识。本文根据GitHub-SKG数据集和GitHub-SKGT数据集分别对GNGCN模型和DAEGCN模型进行实验评估。本文提出的模型相比于基线模型在推荐性能和模型规模上均有不同程度的提升和改进。
其他文献
近年来随着中央对于国内经济发展的转型升级定调,全国各经济发达省份纷纷在各自经济发展规划中将产业发展与区域合作提升到了前所未有的战略地位,以期在广泛全面的产业竞争中取得先手。为了提升本区域的综合经济实力、高效促进经济发展、优化产业结构、培育产业集群,招商引资一直都是政府每年的工作重点。目前许多地方招商部门都在不断的利用新的方式方法提升招商引资效率,扩展招商引资渠道范围,基于大数据技术的招商引资方式方
学位
数据流分类旨在从大量快速生成的数据中获得有用的模型,其中训练数据和待分类数据并不是一次性获得,而是按照时间顺序数据流的形式连续地到达。与静态分类过程不同,将所有训练数据结合起来构造分类器在数据流分类任务中是不被允许的,一味的将数据累计并不是非常理智的做法(存储空间有限、计算能力有限)。因此在数据流分类中有一个非常重要的限制:仅可使用当前或有限阶段的训练数据来训练(调整)模型。目前对于人类活动识别中
学位
随着城市化的快速发展,智慧城市的建设融入到了生活的各个领域之中,它致力于运用信息和人工智能技术对整个城市运营需求做出快速反应和合理规划。目前大多数城市规划者和管理者专注于研究城市的交通流量变化,并取得了有效的研究成果,但在细粒度的城市流量推断和城市潜在交通流量预测方面的研究还存在一定不足。本文旨在这两个方面,使用深度学习技术提出了基于时空对比自监督的城市细粒度流量预测和城市潜在交通流量预测模型。作
学位
作品《桃花坞》创作于2019年,是青年作曲家李渊清以回归传统的创作理念,汲取苏州评弹的唱腔、节奏等民间音乐素材,创作出的具有传统文化意蕴的现代二胡作品,并于同年获得“第36届上海之春国际音乐节江南风格二胡作品征集”第一名。《桃花坞》自问世就受到大家的喜爱,该曲以作者童年记忆中的桃花坞为表现主题,以江南音乐为出发点,融入评弹中琵琶三弦的特色过门乐句,以五声为主体,描绘了桃花坞街市热闹喧嚷与安静悠然的
学位
随着大数据时代的到来,科学应用日渐呈现数据密集型计算的趋势。为适应大数据的有效存储与高效处理需求,各种分布式平台如雨后春笋般相继出现,如集群计算、云计算、雾计算等。但是无论依赖于何种计算平台,都离不开高效的任务调度策略。已有的分布式任务调度模型大都假设所有服务器在任务到达之前均处于空闲等待状态,且在执行任务期间可以一直保持在线可用状态。实际上,几乎所有的分布式平台都无法保证这一点,即每台服务器可能
学位
水是地球上所有生命生存的重要来源。土壤水分是农作物生长的基础条件之一,是作物长势监测、作物估产以及农田干旱监测的重要指标,是陆地生态系统水分和能量循环的关键因素,特别是对盐渍土地区的生态环境具有十分重要的意义。传统的土壤含水量测定方法,耗时费力,不利于大面积监测土壤水分状况。而微波遥感具有能够全天时、全天候工作,可以穿透云层,并且对植被层具有一定穿透能力的特点,为实时、动态、大面积监测土壤水分提供
学位
随着大数据互联网时代的到来,在线教育系统作为教育资源共享的平台、促进教育公平的工具逐渐得到关注。在线教育系统提供的高水平服务中,较为重要的是能实现个性化、智能化的智能教育;而知识追踪是智能教育系统的基础工作,提高知识追踪任务的完成性能与效率对提高教育系统智能程度有重要意义。过去的工作为更好解决知识追踪问题提出了多种方法,取得了一定的研究进展,但仍然存在一些问题:1、过去基于图神经网络的知识追踪模型
学位
随着点云获取技术的日渐成熟,点云处理领域也吸引来了越来越多的研究者,通过对传统的点云算法研究,人们发现大部分点云问题偏向于使用均匀且致密的输入。由此,研究者们提出了点云上采样(点云超分辨率)的概念,旨在由稀疏、不均匀、嘈杂的输入生成一个更密集的点集;最重要的是,这个点集需要贴合输入所表示的潜在几何表面,且需分布均匀、符合人眼视觉感知习惯。传统的点云上采样方法往往基于表面局部平滑等约束进行优化,难以
学位
三维重建技术是指通过给定的图像或视频数据集,将现实世界中的真实物体或场景在计算机中恢复成符合计算机逻辑表达的数字模型。目前有两种主流的方法,分别是基于深度相机的重建方法和基于多视图的重建方法。纹理是三维重建模型的重要组成部分,反映物体表面和结构的基本属性。纹理图像的质量影响着重建后的三维模型的质量,重建生成的纹理越清晰,模型的质量与精度也就越高,也更加真实。虽然可以通过提高相机的分辨率和位姿的精度
学位
由不同类型的节点和边组成的异质网络结构在现实世界中具有广泛的应用场景,例如论文、会议、期刊、作者等不同类型的节点能基于论文-会议或论文-期刊的投稿关系、论文-论文的引用关系、论文-作者的撰写关系以及作者-作者的共作关系构建一个引文网络结构,此外现实场景中常见的网络结构还有社交网络、交通网络以及电商网络等。近年来,针对异质网络结构所建模的异质图神经网络不断迭代改进,能实践于现实项目以促进项目的高效运
学位