基于属性网络表示学习的引文推荐问题研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:p244150486
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据统计,每天都有数以万计新的学术文章出版,如此庞大的文献数量导致信息过载问题日益突出。引文推荐,作为克服这一困难的重要解决方案,聚焦于智能化地从文献数据库中产生与查询文章相关的文献列表,近年来越来越受到学者们的关注。在引文推荐问题中,可以利用文章的多样化信息来解决问题。因此,网络范式可以有效地捕捉文章语义和结构信息。近年来,基于网络表示学习的引文推荐倍受关注,但如何充分耦合文章的语义和结构特征仍具挑战。考虑到引文推荐的特有性质,作者结点通常不直接关联属性,故网络出现局部结点缺失属性的现象,已开发的属性网络表示学习模型难以被直接应用于引文推荐。现有的工作聚焦于利用网络拓扑来学习文章特征,少有工作致力于探索属性网络表示学习在引文推荐上的应用。本文将文章的文本属性和结构属性通过属性网络有效地融合,并根据结点的语义相似性构建语义连边。语义连边是对属性网络边集合的扩充并指代网络上两篇文章共享相似的文本内容,并在后续学习文章结点特征表示的过程中提供有价值的语义监督。为克服单粒度网络表示学习技术计算复杂度高,内存消耗大的弊端,进而引入多粒度网络表示学习技术来解决这一问题。本文的主要工作如下:1)针对难以充分耦合文章的语义和结构特征并考虑文章的多样化信息这一问题,本文提出基于语义连边属性网络表示学习的引文推荐算法(CR-ANRSL)。首先,根据文章结点的文本属性相似度在属性网络上构建语义连边,语义连边可以相互吸引网络上语义强关联的文章结点并增强网络上边的语义。随后,基于skip-gram模型来学习结点分布式特征表示,语义连边在此过程中提供有价值的语义内容监督。最后,设计一种融合多模态特征表示相似度的线性融合方法来度量文章间的相似度以产生推荐列表。在AAN和DBLP两个公共数据集上的实验结果表明语义连边可以有效地集成结点的属性信息并在后续的网络表示中提供有价值的监督,在召回率和NDCG上胜过多种广泛被使用的引文推荐模型。2)针对单粒度语义连边属性网络表示学习模型计算复杂性高和庞大的内存需求,难以扩展到大型网络这一问题,本文提出基于多粒度语义连边属性网络表示学习的引文推荐算法(CR-HANRSL)来放宽这一限制。首先,根据文章结点属性的语义关联度和作者关系反复将网络粗化成更小的网络,以维护作者间的历史合作关系并同时兼顾文章的语义信息,并在每次粗化后都让超结点融合子结点的文本属性为粗化后的网络计算语义连边。随后,利用单粒度网络表示学习方法获得粗化后的网络特征表示并通过学习图卷积神经网络,对原网络的表示进行细化来学习结点向量。最后,融合文章间多模态特征表示相似度产生推荐列表。实验证明提出的方法与1)中的提出的方法比较在几乎不损失精度的条件下大大提升了执行效率。
其他文献
大学文化作为新时代中国特色社会主义先进文化的重要组成部分,承担着立德树人的神圣使命。大学文化建设涵盖了物质文化、精神文化、行为文化、制度文化等诸多内容,最终凝聚成
作为我国国民经济中最具发展潜力的产业的高新技术企业,在促进国家经济的稳定快速增长的同时,也使得经济结构转型进一步实现。我国针对高新技术企业制定了相关的税收优惠措施并不断完善,许多高新技术企业也都享受着政策的带来的利处,但高新技术企业在行业中发展进程不同,目前实行的税收优惠政策对不同的行业间影响效果存在怎样的差别,在目前的研究没有充分的说明这个问题,所以有必要结合当前税收优惠政策分析阐述高新技术企业
所得税优惠是当前世界各国激励企业投入研发创新活动、扶持战略性新兴产业发展的重要税收政策工具。而在“理性经济人”假定下,企业从事经济活动都是以获得最大利益为目的,故要激发企业研发积极性,利益驱动是根本。因此基于“所得税优惠-行为-经济后果”研究范式,探析所得税优惠、研发投入、企业绩效的脉络关系十分必要。对相关文献查阅后发现,多数学者研究的着力点是三者之间的直接关系,对其内在逻辑关系的研究较少。因此本
目的探讨青少年同伴欺凌受害类型和持续时间与青春期发育的前瞻性关联。方法采取整群抽样的方法,选取安徽省马鞍山市3所小学34年级学生,基线与随访1年分别开展体格检查、学生问卷与青春期发育评价。基于《欺凌/受害者调查问卷》和《多维度同伴欺凌量表》改编的《同伴欺凌受害问卷》,评价不同类型同伴欺凌受害经历,包括言语、躯体和社会欺凌受害;采用《青春期发育量表》(pubertal development sca
图书出版是国家文教工作的重点,中小学教材出版发行更是国家基础教材的基本载体。―互联网+‖促进产业融合,改变企业的外部环境,深刻影响着中小学教材出版发行企业的营销活动
自然场景的文本检测是指对图像中单词或文本行的边界框进行定位的一项技术,随着社会对于人工智能技术的需求不断增长,推动着人工智能飞速地发展,而文本检测作为人工智能的一部分,在这样的发展过程中也逐渐成为不可或缺的一项技术,拥有广阔的应用前景。目前,深度学习已成为文本检测领域的重要方法,各个基于深度学习的文本检测算法已经取得了较好的检测结果,在实际应用中也有良好的表现,然而对自然场景下的中文文本检测的研究
随着互联网技术的快速发展,机器学习分类已广泛应用于日常生活的多个领域。分类算法通过对已有的数据进行分析并且建立模型,从而对未知数据进行预测。目前,已经有了很多成熟的分类算法,比如支持向量机、决策树、神经网络等,这些算法大多是针对平衡数据集而设计的。但是,在实际应用中,数据集大多都是不平衡的。这些分类算法在对不平衡数据进行分类时,往往比较注重数据集整体的分类准确率,而少数类样本的分类准确率比较容易被
近年来,随着半导体制造工艺和设计技术的高速发展,集成电路的性能也在不断提高。各种以集成电路为基础的高新技术如人工智能、自动驾驶、生物医疗、物联网和5G技术等也在推动着集成电路的高速发展。数字集成电路具有高集成度和易于大规模开发等优点,可广泛应用于通用计算、信号处理等技术领域。在处理自然界各种模拟信号时,为了利用数字集成电路强大的信号处理和计算能力,需要使用模数转换器(Analog-to-Digit
武器系统特别是军用电子设备的飞速发展,对电子系统的健康状态提出了更高的要求。飞行器信息处理设备是导弹制导的重要组成部分,主要负责对弹上采集系统采集的制导图像进行信息处理,并将图像处理结果同时发送给飞行控制组合和人机交互界面进行显示。通过对信息处理设备硬件组成进行分析,其故障可划分为系统突发性故障和系统渐变性故障。本文对系统突发性故障进行了故障诊断研究,对系统渐变性故障进行了故障预测研究,并搭建了测
目的:氨是机体含氮物质代谢所产生的毒性副产物,也是诱发肝性脑病的主要生物毒素。近期研究发现,氨作为一种新型自噬诱导剂,促进肝细胞自噬的同时,利用自噬改善肝细胞的尿素