论文部分内容阅读
随着科学技术的发展,研究人员发表了数以百万的学术性文献。在进行科研活动的过程中,人们需要花费大量的时间和精力进行文献调研以便更好地掌握研究进展。为了缓解这种信息过载的问题,学术搜索引擎、学术社交网站和文献管理平台成为了研究者从海量科研数据中获取信息的几种主要途径。另外,专业的学术论文推荐系统也不断被学界和工业界提出并投入使用。目前,学术论文推荐场景主要分为两种:一种是基于用户建模的学术论文推荐,该任务主要根据用户历史行为记录为其推荐可能感兴趣的学术论文;另一种则是基于用户查询的学术论文引文推荐,该任务为用户推荐与其所给查询相关的文章,且这些推荐结果常被用作学术论文里的参考文献。相对而言,学术论文引文推荐(后简称引文推荐)对节省研究人员撰写学术论文的成本和降低重要文献的漏引率具有更加重要的作用和意义。随着大数据存储与处理技术的快速发展,学术论文的元数据与全文信息日益丰富。机器学习、深度学习等技术的进步使得研究人员在文本挖掘算法上取得创新,引文推荐任务也迎来了发展势头。作为科技文本挖掘领域中基础的自然语言处理任务,现有的引文推荐研究存在如下几个问题:首先,在进行用户查询和候选引文的表示学习时,现有研究所使用的文本表示方法较为传统,神经网络模型应用较少。在利用排序指标对推荐列表重排序时,现有研究使用的指标单一,没有系统性考虑不同指标之间的排序效用以及互相组合的可能性。另外,现有的引文推荐任务多为静态推荐,没有将时间因素加入进来;针对用户查询的语义信息挖掘多停留在文本表示学习阶段,没有进行深度语义分析。为了能够进一步提升任务效果,本文开展了基于引用时间偏好和查询论证结构的学术论文引文推荐研究,主要包括以下四个方面:首先,本文将引文推荐作为对候选引文进行分类的任务,即判断其是否被引。而在进行文本分类模型的训练前,算法需要对文本进行表示,即抽取文本特征。为了能够发现引文推荐任务中有效的文本表示方法,第三章的研究比较了目前流行的几种神经网络模型,并通过预训练语言模型的选取、神经网络输入的构建等措施进一步提升引文推荐效果。其次,由于越来越多的研究提出各种排序指标来指导引文推荐列表的排序步骤,本文希望对不同的指标排序效用进行系统性分析。第四章的研究利用机器学习中的排序算法对目前较为流行的四类引文推荐结果排序指标以及不同指标之间的组合进行了排序效果分析。最后,第四章还利用文章权威度指标对第三章的引文推荐结果进行了优化实验。第三,为了解决现有引文推荐研究忽视时间维度、没有深入考虑引用行为在时间上具有偏好性的问题,本文从用户查询入手,提出了考虑引用时间偏好的引文推荐方法。第五章的工作通过搭建神经网络模型来进行基于用户查询的引用时间偏好预测,并利用预测出的引用时间偏好对基于文本内容相似度的推荐结果进行有效重排序。为了进一步提高预测效果,本研究还尝试了具有注意力机制的神经网络结构。最后,为了能够深入分析用户查询蕴含的语义信息,第六章的工作基于先前的研究,将用户查询的论证结构信息加入引文推荐任务,提出了考虑用户查询论证结构的引文推荐模型。为了训练模型,本研究进行了生物医学领域的引文句标注工作。另外,第六章还提出了基于引用时间偏好的引用参数,将其放入神经网络模型中用作权重来提升推荐效果。经过对引文推荐任务的研究,本文利用深度学习、传统机器学习等技术从文本表示模型、引文推荐结果排序指标、用户查询的引用时间偏好和用户查询论证结构类型这四个方面进行了引文推荐模型的提出,并通过实验得到了相关结论,证明了提出方法的有效性。通过以上探索,本研究系统性地比较了引文推荐任务中不同神经网络模型在进行文本表示的效用以及不同排序指标对推荐结果的排序效用。针对考虑时间因素的引文推荐,本研究提供了一种全新的研究思路,并且本文提出的用户查询所具有的引用时间偏好性可适用在其他基于用户查询的推荐模型中,以起到动态推荐的效果。针对用户查询的深度语义挖掘,本研究从科技文本语料的特殊性出发,提出了考虑论证结构的引文推荐算法,为引文推荐中用户查询的理解提供理论依据、计算模型和标注数据。