论文部分内容阅读
引用是科研活动的重要的行为,当前很多科学评价系统,如汤森路透的SCI影响因子、南京大学的CSSCI指数、北京大学的核心期刊评价等都是基于引文频次进行的,然而实际上引用行为受很多因素的影响,简单以引用频次作为科研价值的评价标准有失公允。 本文首先从引文文本的相关研究出发,梳理已有研究中使用引文文本对引用行为进行研究的分类标准和方法,然后构建适用于中文文献的分类系统。以近五年国内图书情报领域核心期刊中的海量引文文本数据为例,按照文本中的语义和词汇结构以及其它特征,探究不同机器学习算法处理引文文本分类的可行性并择优对实现引用行为的自动标注,从情感倾向、引用功能、引文位置等对国内图书情报领域的引用行为进行统计分析和评价。 主要研究结论: (1)使用机器学习的算法实现引文文本的分类具有可行性,且增加相关的特征向量在一定程度上可以提高模型分类的准确率。(2)负向引用行为在图书情报领域的比例较少,大部分负向引用通过结构表述获取,通过机器学习对情感倾向进行判断准确率不如线索词的方法高。(3)在不同期刊中的负向引用有一定的差异,与主要期刊主旨和类型有关,大部分负向情感发生的位置在文献的相关研究部分,在一定范围内位置引用越靠后负向类型越少。(4)在不同的期刊中不同引用功能表现具有差异,总体发生的位置较为分散;大部分负向情感的引用是敷衍性的与研究内容无关系的研究;绝大部分论文存在有大量的无关引用行为,重要性引用比例较低;(5)方法类型文献比综述类型、概念类型的文献获得的实际影响力要高,也更容易获得负向的引用,说明负向的引用行为并不代表该引文不具有价值,在中文社会科学领域,负向引用更多的倾向与对被引文献内容的改进。 研究创新点: (1)结合了已有研究中的对引文文本分析的不同维度,构建了适用于中文文本分析的系统,并提取了中文科技文献中常用的负向情感倾向的表述方式和结构,弥补了国内相关研究的不足;(2)将机器学习算法应用到引文文本的分类体系中,证明了该方法的切实可行,以计算机实现引文文本的获取和自动分类,大大提高了效率,节省人力资源;(3)本研究以国内图书情报领域的海量引文文本为数据来源,语料充分有代表性,多角度探索了在该领域的引用行为现状和规律。(4)从引用行为的角度对文献的影响力综合评价,是对基于频次的评价方法的补充和完善。