论文部分内容阅读
知识是人类创新的发展力。人们在实践中发现、研究知识并且创新知识,人类通过知识不断地改造社会。如今,网络世界的信息纷繁复杂,许多冗余、重复的信息干扰了人们的视线,因此,让学术人员快速、准确地定位到其感兴趣的知识是一项十分重要的任务。搜索与推荐可以帮助人们实现这一目标。但是,以往的搜索与推荐一般只是从统计的角度出发,经常被点击的项目具有更高的权重,而并不是从人类理解的角度出发,真正得到语义相关的知识。知识图谱的出现使这一问题迎刃而解。知识图谱将网络上的实体整合成一个语义网络,通过在知识图谱上的路径推理,系统可以将真正语义上有紧密联系的实体展示出来。在学术研究领域,学术论文是人们获取知识的中心来源,而学术论文以解决学术问题为宗旨。为了解决各种各样的问题,创新性的方法也是论文的主要贡献。由此可见,问题与方法都是理解论文的不同角度。从前,很少有人将论文的问题及方法抽取出来作为知识图谱中的节点,而如何从非结构化文本中抽取出这两种实体也是一个难点。与此同时,一般的实体抽取算法需要大量标注数据,这在大数据量的情况下十分损耗人力物力。因此,本文的目标是用少量标注数据完成大数据量下的问题及方法抽取,并构建一个将问题及方法作为节点的学术知识图谱,以进一步解决语义推理等问题。本文的主要工作如下:(1)提出了基于图神经网络的多视角概念抽取算法。已经有许多学者成功构建出学术知识图谱,但将问题与方法抽取出来作为节点的知识图谱少之又少。而与已有方法不同的是,本文提出了一种关于领域、问题及方法的假设,能够准确地区分问题及方法,在迭代自训练过程中应用由该假设所作的约束,实现半监督学习。针对论文中的每一个句子,给句子中的每个单词分配标签,标签是问题或方法。在学习特征向量的过程中,单词的上下文向量表示会与所属关键词在网络中的结构向量表示进行融合,使用神经网络学习融合后的特征,用两个不同的目标函数进行最终的预测;在模型自训练过程中加入由假设所做的约束,使模型能够自动向着分类结果更准确的方向发展,从而节省大量标注数据的工作。(2)提出了基于胶囊网络的学术论文推荐算法。以上一步构建出的知识图谱为辅助信息,根据某用户点击的论文,在知识图谱中得到与其语义上紧密相关的论文作为候选论文列表,通过用户的点击行为学习用户与论文的特征,使用胶囊网络提取上述特征,预测用户对于论文的评分,从而对候选论文进行评分排序,选取排名靠前的论文推荐给用户。在数据集上验证了实验结果的准确性。