基于引文文本的引用行为分析——以国内图情领域为例

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:Ruiming123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
引用是科研活动的重要的行为,当前很多科学评价系统,如汤森路透的SCI影响因子、南京大学的CSSCI指数、北京大学的核心期刊评价等都是基于引文频次进行的,然而实际上引用行为受很多因素的影响,简单以引用频次作为科研价值的评价标准有失公允。  本文首先从引文文本的相关研究出发,梳理已有研究中使用引文文本对引用行为进行研究的分类标准和方法,然后构建适用于中文文献的分类系统。以近五年国内图书情报领域核心期刊中的海量引文文本数据为例,按照文本中的语义和词汇结构以及其它特征,探究不同机器学习算法处理引文文本分类的可行性并择优对实现引用行为的自动标注,从情感倾向、引用功能、引文位置等对国内图书情报领域的引用行为进行统计分析和评价。  主要研究结论:  (1)使用机器学习的算法实现引文文本的分类具有可行性,且增加相关的特征向量在一定程度上可以提高模型分类的准确率。(2)负向引用行为在图书情报领域的比例较少,大部分负向引用通过结构表述获取,通过机器学习对情感倾向进行判断准确率不如线索词的方法高。(3)在不同期刊中的负向引用有一定的差异,与主要期刊主旨和类型有关,大部分负向情感发生的位置在文献的相关研究部分,在一定范围内位置引用越靠后负向类型越少。(4)在不同的期刊中不同引用功能表现具有差异,总体发生的位置较为分散;大部分负向情感的引用是敷衍性的与研究内容无关系的研究;绝大部分论文存在有大量的无关引用行为,重要性引用比例较低;(5)方法类型文献比综述类型、概念类型的文献获得的实际影响力要高,也更容易获得负向的引用,说明负向的引用行为并不代表该引文不具有价值,在中文社会科学领域,负向引用更多的倾向与对被引文献内容的改进。  研究创新点:  (1)结合了已有研究中的对引文文本分析的不同维度,构建了适用于中文文本分析的系统,并提取了中文科技文献中常用的负向情感倾向的表述方式和结构,弥补了国内相关研究的不足;(2)将机器学习算法应用到引文文本的分类体系中,证明了该方法的切实可行,以计算机实现引文文本的获取和自动分类,大大提高了效率,节省人力资源;(3)本研究以国内图书情报领域的海量引文文本为数据来源,语料充分有代表性,多角度探索了在该领域的引用行为现状和规律。(4)从引用行为的角度对文献的影响力综合评价,是对基于频次的评价方法的补充和完善。
其他文献
随着中国政府信息公开的不断加强,政府信息资源数量不断增长;同时,公众对政府信息资源的利用需求也在不断提高。为提高中国政府信息资源的社会利用水平,充分发挥出政府信息资源所
石油是我国重要的资源,目前油价低迷从而影响了石油企业的发展.石油企业由于行业垄断造成了很多的问题并且社会上也对其提出了一些意见.我国新疆油田,特别是克拉玛依油田就与
首先分析知识转移的内涵、类型,进而构建知识转移的基本模型;其次概括分析国内外学者关于知识转移的研究视角,总体上分为:知识转移的模式、过程、要素、机制、规律和策略等;
针对如何在战争游戏中模拟竞争对手问题,提出战争游戏法分析框架概念.结合战争游戏法分析框架特性,建议将四角模型作为战争游戏法的分析框架.辅以真实案例,对四角模型分析框
通过对比中、美两国的图书馆学毕业生在职业竞争力方面存在的差距,从教育体制、社会环境、任职资格以及社会价值观方面对导致差距的原因进行分析,并提出相应的对策.
以山西省图书馆为例,通过读者、馆员满意度调查对图书馆知识转移效果进行评价,以知识资源、知识提供者、知识转移通道及知识接受者等影响要素为切入点,分析知识转移模式中现
针对目前分众分类法的缺陷,提出主题图Topic Maps这一解决策略,并对国外主题图驱动的标签网站Fuzzzy进行分析,在此基础上提出基于主题图构建知识专家学术社区的原型.知识专家
随着信息技术的迅猛发展和我国证券市场规模的不断扩大,如何对证券行业内来源众多、内容广泛的信息进行合理的集成,并在此基础上实施高效的挖掘,从而为市场各参与方制定决策提供
学位
引文索引原本是作为书目检索工具而开发的,然而学者们很快发现引文索引的作用远不止于此。专家认为,一篇完整的学术论文,应该由正文及之后所附的参考文献组成。正文本身为引用文
学位