论文部分内容阅读
学术评价是科研活动中一项非常重要的价值评估工作,是衡量科研主体的学术质量和创新性的关键途径。对学术成果进行公平公正的客观评价,一方面可以保障每位科研学者的切身利益,给予有突出贡献的学者充分的影响力肯定,促进高端人才的不断发展。另一方面可以为科研人员提供学术指导,提高科研人员分析学术成果价值和把握最新研究趋势的效率。此外,学术评价在宏观层面也影响到国家科研战略的制定和科技创新能力的提升,在推动学术健康发展、保障学术诚信和合理分配学术资源等诸多方面,均发挥着十分关键的作用。学术文献作为科研成果最主要的展示方式之一,蕴含着大量对后续研究具有指导意义的知识。目前,针对学术文献的定性评价法和定量评价法都是基于文献外在层面的题录特征如被引量、影响因子等进行学术评价,而没有对文献内在文本层面的细粒度知识实体特征进行充分考虑,因此并不能在语义层面上完全反映出文献的创新性价值。此外,目前针对学术评价所应用的知识图谱都是基于题录特征,例如利用引文网络或者合著网络等来进行构建,没有充分考虑文献细粒度知识实体间的关联关系。因此,如何能从细粒度层面对文献内在知识实体特征进行分析和挖掘,并在此基础上结合学术知识图谱的网络关系对文献和学者进行学术定量评价,从而在细粒度层面反映出文献和学者的学术价值,是当前学术界一直在关注和探讨的难题。针对以上问题,本文以教育学领域英文文献为研究目标,利用机器学习、自然语言处理等技术从文献的细粒度知识实体层面对教育学领域学术知识图谱进行设计和构建,并基于构建出的学术知识图谱,结合文献的知识实体特征和知识图谱的学术网络关系,针对文献和学者进行学术定量评价算法的设计和应用,为学术定量评价领域提供新的研究视角。本文的主要研究工作如下:1.教育学领域细粒度学术知识图谱设计:提出一种教育学领域细粒度学术知识图谱的设计方案。该方案首先选定教育学领域为论文的主要研究对象,获取此领域的学术文献数据集,通过文本清洗、词频统计、权重计算、词向量生成、聚类等方法对初始数据集的文献进行词汇级别的特征分析,抽象出蕴含在文献中的六种显性知识实体类别,然后结合该领域专业学者的需求对三种隐形知识实体类别进行补充,得到教育学领域文献知识实体的类别体系树,最后通过对学者、文献和知识实体三大节点的数据类型和关系类型进行设计,完成教育学领域细粒度学术知识图谱的整体框架设计。2.教育学领域细粒度学术知识图谱构建:提出一种教育学领域细粒度学术知识图谱的构建方案。该方案首先基于抽象出的知识实体类别利用人工标注方法构建出一份高质量的知识实体抽取任务数据集。然后基于该数据集,结合教育学领域文献的知识实体特点,提出一种基于双任务融合策略的知识实体抽取模型。该模型可以分别通过序列标注任务和阅读理解任务对知识实体抽取任务进行联合建模,并基于两级融合策略对子模型的结果进行处理,从而在一定程度上解决了知识实体抽取过程中的长距离依赖和实体嵌套问题,提高了学术文献中细粒度知识实体的抽取精度。最后基于设计出的知识实体抽取模型对未标注文献进行批量的知识实体抽取,并将抽取出的知识实体以及学者、文献三类数据及其关系导入到图数据库中,完成教育学领域细粒度学术知识图谱的构建。3.基于细粒度知识图谱的学术定量评价算法:基于构建出的细粒度学术知识图谱,分别针对文献和学者进行学术定量评价算法的设计和应用。首先针对文献,提出一种基于细粒度文献相似度计算和隐马尔可夫模型的文献创新性评价算法,该算法可以在文献内容的细粒度层面上对文献进行创新性值的计算和评价。然后针对学者,提出一种基于GN图聚类的学者研究倾向聚类算法,该算法可以结合文献内在的知识实体特征关系和学术知识图谱的网络关系对学者的研究倾向进行聚类。最后通过实验分析对以上两种算法进行了有效性验证,实验证明本文提出的两种学术定量评价算法均具有一定效果。