基于引用时间偏好和查询论证结构的学术论文引文推荐

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:tc2020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,研究人员发表了数以百万的学术性文献。在进行科研活动的过程中,人们需要花费大量的时间和精力进行文献调研以便更好地掌握研究进展。为了缓解这种信息过载的问题,学术搜索引擎、学术社交网站和文献管理平台成为了研究者从海量科研数据中获取信息的几种主要途径。另外,专业的学术论文推荐系统也不断被学界和工业界提出并投入使用。目前,学术论文推荐场景主要分为两种:一种是基于用户建模的学术论文推荐,该任务主要根据用户历史行为记录为其推荐可能感兴趣的学术论文;另一种则是基于用户查询的学术论文引文推荐,该任务为用户推荐与其所给查询相关的文章,且这些推荐结果常被用作学术论文里的参考文献。相对而言,学术论文引文推荐(后简称引文推荐)对节省研究人员撰写学术论文的成本和降低重要文献的漏引率具有更加重要的作用和意义。随着大数据存储与处理技术的快速发展,学术论文的元数据与全文信息日益丰富。机器学习、深度学习等技术的进步使得研究人员在文本挖掘算法上取得创新,引文推荐任务也迎来了发展势头。作为科技文本挖掘领域中基础的自然语言处理任务,现有的引文推荐研究存在如下几个问题:首先,在进行用户查询和候选引文的表示学习时,现有研究所使用的文本表示方法较为传统,神经网络模型应用较少。在利用排序指标对推荐列表重排序时,现有研究使用的指标单一,没有系统性考虑不同指标之间的排序效用以及互相组合的可能性。另外,现有的引文推荐任务多为静态推荐,没有将时间因素加入进来;针对用户查询的语义信息挖掘多停留在文本表示学习阶段,没有进行深度语义分析。为了能够进一步提升任务效果,本文开展了基于引用时间偏好和查询论证结构的学术论文引文推荐研究,主要包括以下四个方面:首先,本文将引文推荐作为对候选引文进行分类的任务,即判断其是否被引。而在进行文本分类模型的训练前,算法需要对文本进行表示,即抽取文本特征。为了能够发现引文推荐任务中有效的文本表示方法,第三章的研究比较了目前流行的几种神经网络模型,并通过预训练语言模型的选取、神经网络输入的构建等措施进一步提升引文推荐效果。其次,由于越来越多的研究提出各种排序指标来指导引文推荐列表的排序步骤,本文希望对不同的指标排序效用进行系统性分析。第四章的研究利用机器学习中的排序算法对目前较为流行的四类引文推荐结果排序指标以及不同指标之间的组合进行了排序效果分析。最后,第四章还利用文章权威度指标对第三章的引文推荐结果进行了优化实验。第三,为了解决现有引文推荐研究忽视时间维度、没有深入考虑引用行为在时间上具有偏好性的问题,本文从用户查询入手,提出了考虑引用时间偏好的引文推荐方法。第五章的工作通过搭建神经网络模型来进行基于用户查询的引用时间偏好预测,并利用预测出的引用时间偏好对基于文本内容相似度的推荐结果进行有效重排序。为了进一步提高预测效果,本研究还尝试了具有注意力机制的神经网络结构。最后,为了能够深入分析用户查询蕴含的语义信息,第六章的工作基于先前的研究,将用户查询的论证结构信息加入引文推荐任务,提出了考虑用户查询论证结构的引文推荐模型。为了训练模型,本研究进行了生物医学领域的引文句标注工作。另外,第六章还提出了基于引用时间偏好的引用参数,将其放入神经网络模型中用作权重来提升推荐效果。经过对引文推荐任务的研究,本文利用深度学习、传统机器学习等技术从文本表示模型、引文推荐结果排序指标、用户查询的引用时间偏好和用户查询论证结构类型这四个方面进行了引文推荐模型的提出,并通过实验得到了相关结论,证明了提出方法的有效性。通过以上探索,本研究系统性地比较了引文推荐任务中不同神经网络模型在进行文本表示的效用以及不同排序指标对推荐结果的排序效用。针对考虑时间因素的引文推荐,本研究提供了一种全新的研究思路,并且本文提出的用户查询所具有的引用时间偏好性可适用在其他基于用户查询的推荐模型中,以起到动态推荐的效果。针对用户查询的深度语义挖掘,本研究从科技文本语料的特殊性出发,提出了考虑论证结构的引文推荐算法,为引文推荐中用户查询的理解提供理论依据、计算模型和标注数据。
其他文献
超材料是一类基于人工设计结构的复合材料,呈现出天然材料所不具备的超常物理性质。基于超材料的完美吸波体因在国防和电磁防护等领域有广阔的应用前景而备受关注。电磁隐身和电磁防护不仅需要吸波体具有强的吸波能力,还需要吸波体在工作带宽、材料柔性和重量体积等方面满足实用性要求。宽带化、小型化、柔性化的吸波体设计机理和实现方法仍然是亟待解决的科学和工程问题。本论文根据上述问题及实际应用需求,从超材料吸波原理出发
分数阶微积分因引入带有幂律记忆核的卷积积分而被广泛应用于描述事物的记忆及遗传特性。近年来,分数阶微积分已在反常扩散、系统控制及经济学等领域的研究中取得诸多成功实践,促使分数阶微分方程在描述系统动态演化过程蕴含的全局相关性和历史依赖特征中发挥着不可替代的作用。然而,非决定性因素广泛存在于现实系统的演化过程之中,当反映系统某一非决定因素的样本数据充足时,则可构建以随机过程为基础的动力学模型进行描述。而
学位
磁流变脂是一种在外加磁场调控下能够实现流变性能(如粘度和储能模量等)可逆变化的智能材料,通常由软磁性颗粒分散在粘弹性的润滑脂基体中制备而成。得益于粘弹性润滑脂基体的使用,磁流变脂在无磁场条件下呈现出类似于软物质的状态,使得其可以有效的克服传统磁流变液不可避免的沉降和泄露等问题。而在施加一定磁场后,磁流变脂内部的铁磁颗粒可以突破润滑脂基体的约束,沿磁场方向聚集排列成一定形式的微观结构。伴随着磁场调控
氮杂环化合物是药物中最重要的结构成分之一。另一方面,引入氟原子或氟代烷基可以显著改善药物分子的药理特性,例如亲脂性和代谢稳定性。用含氟基团来修饰氮杂环化合物,可能获得协同作用,从而进一步改善药物分子的整体功效。因此,本文主要以三氟乙基亚磺酸钠和一氟碘甲烷作为亲电试剂,分别研究了它们与氮杂环化合物的亲电含氟官能团化反应。此外,还利用电化学合成技术实现了C-S键的偶联反应。首先,研究了在还原剂亚磷酸二
太阳能在众多可再生能源中,因其储量丰富,分布广泛和无污染等优点而备受关注,其在众多可再生能源中最具有发展潜力。在太阳能光伏电池中,激发电子-空穴对只需要与光伏电池禁带值相当的光子能量,其余的光子能量都将以热能的形式浪费。这部分能量导致光伏电池温度升高,降低光伏电池效率。因为热电模块能将热能直接转化成电能,所以热电模块被引入光伏电池系统,组成对太阳能利用更加充分的光伏-热电耦合系统。为了降低系统成本
随着经济社会和信息技术的发展,电力资源的稳定供应直接影响着人们的日常生活和生产活动。输变电设备的安全和稳定运行是保障电力输送系统可靠性的必要条件,其维护工作在电力企业管理中的重要性日益突出。另一方面,随着智能电网和数字化变电站在我国的发展,输变电设备的自动化水平和管理要求不断提高,给设备的维护管理工作带来了极大的挑战。因此,对以设备实际运行状态为基础的故障预测和维护调度方法进行研究具有十分重要的学
将避税问题置于代理理论框架下进行分析是目前避税领域学术研究的重要方向。该方向的研究认为复杂的避税活动会增加企业信息不对称程度,因而常常成为控股股东或管理层进行机会主义行为的工具。企业避税引发的代理冲突会增加审计风险,因此审计师有抑制企业避税的动机。本文将审计师抑制企业避税的行为称为审计的避税抑制效应。不过已有文献对审计的避税抑制效应的存在性有争议,这主要是因为研究者受制于审计过程不透明的特性无法直
行人重识别技术主要解决的是跨摄像头下的相同行人识别与检索问题,该技术具有极高的实用价值,能够根据行人的服饰、体型等因素检索到匹配的行人,应用场景主要有跨镜追踪、智能安防、智慧交通。但是,目前该领域还存在着诸如获取到的图片像素不高,行人遮挡,光线、角度差异等因素导致的识别率不高的问题。针对行人遮挡、行人不全、特征不对齐的问题,本文提出以下的解决方案:(1)本文提出了基于两阶段的姿势引导人物图像合成算
学位