高被引论文早期预测研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jhwangseagull
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络科学作为一门新兴的交叉学科,涉及到数学,物理学,计算机科学,社会学等不同学科领域。来自各个领域的数据呈现出指数式增长,这为基于数据的分析建模带来了极大的挑战。伴随数据量的增加,数据之间的关联复杂性也随之增加,复杂网络为有效刻画数据复杂关系提供新的方法,并为各个领域数据的分析挖掘提供了新的视角和工具。其中在科学学领域,已经出现了很多优秀的成果。比如预测论文未来的引用次数一直是研究的热点方向,很多学者试图去构建基于复杂网络的模型,使模型能够根据论文已有的发表早期的信息,完成对论文的后续引用动态的预测。本文的工作是使用论文发表后的早期信息来预测其在未来是否有潜力成为高被引论文,即高被引论文预测的冷启动问题,目前大多数对高被引论文的研究,使用的都是完整的引文数据集,即使用论文发表后的被引信息去预测其是否能成为高被引论文,这类研究并没有考虑到,在论文发表后的早期阶段,对论文能否成为高被引论文进行预测的现实意义,若能在早期对高被引论文进行有效预测,则可以对未来的研究方向进行有效的判断,合理的分配科研资源,并攻克相关的科研难点,同时也能尽早的挖掘出科研人才并进一步培养。本文的主要工作如下:(1)介绍科学学中论文引文预测和学者学术生涯预测相关工作的研究现状和研究动机,并总结了目前主流的3类引文预测方法。随后对本文中所用到的相关理论、指标和方法进行综述,提出了使用论文早期信息预测高被引论文的7种指标,这7种指标分为基于个体层面的指标和基于网络层面的指标。(2)对论文所需要的数据集进行分析和处理,并对引文数据集进行关联整合与数据清洗,以及初步的分析工作。(3)使用上述指标作为特征,基于个体层面指标从统计分析的角度对高被引论文的引文动态进行研究。网络指标使用了基于引文网络的Page Rank指标和Leader Rank指标,基于上述网络指标,对高被引论文进行预测,发现Page Rank指标和Leader Rank指标的加入,能够有效的提升模型的预测精度。最终,实验结果显示通过这7个指标可以在论文发表早期有效的预测其后期成为高被引论文的可能性。
其他文献
随着大数据时代的到来,快速精准地从科技文献中识别和预测热点科研主题是帮助科研工作者了解特定科研领域研究现状的重要手段。从海量的学术文献中获取科研热点及科研主题的演化趋势,不仅可以帮助科研人员节约大量人力物力,同时还可以帮助诸多科技创新主体和科技政策制定者从宏观、全局的角度出发,全面深入的了解相关科研领域的现状和未来趋势。因此识别科技领域的热点主题和对主题热度的趋势预测具有重大的现实意义。基于以上背
社交媒体是互联网上基于用户关系的内容生产与交换平台。近几年社交媒体的迅速扩张使人们可以实时便利地了解世界上正在发生的事情的信息。基于社交媒体的事件检测是一种从海量社交媒体内容中挖掘出有价值信息的技术。基于社交媒体中检测出的事件,国家管理机构能够及时了解现实社会的重大突发事件并采取相应措施,个人能够及时了解社会上出现的热门话题并参与讨论。社交媒体事件检测方法中,在线事件检测由于其时效性较高,最受研究
复杂网络作为一个新兴的研究领域其研究方向在很大程度上依赖于大规模互相关联的结构化数据集。科学学(Science of Science,SciSci)是复杂网络研究在学术界的一个延申领域,其本身就是一个由学者、项目、文献和思想等学术主体自组织而形成的一个复杂网络体系。通过对该网络体系进行采样研究,以复杂网络作为理论基础,以大规模的学术主体作为关联对象,由网络的拓扑结构特性表征出科研领域本身的发展机理
新闻媒体是人们在互联网上获取信息的重要客体之一,分析新闻媒体网络中人物的影响力有助于社会科学研究者或经济政治研究者了解国际或社会型事件动态,对新闻中的信息进行传播动力分析。为了高效处理新闻中的复杂信息,常把问题转化为复杂网络相关问题进行解决。在现有的针对复杂网络节点影响力的研究中,仅利用了节点局部信息或全局信息,忽略了节点影响力贡献以及局部与全局信息的联系,从而导致影响力评估效果不佳。并且现有方法
随着互联网、大数据等技术的快速发展,数字化办公已经成为了现代企业最基本的资源配置。日常办公过程会产生大量电子文件信息,呈现出指数级增长趋势,所以需要开发档案管理系统来集中管理分散于不同地方的电子档案。中国移动公司作为通信行业的支柱企业,每个地市分公司能根据自身需要,构建统一的、标准的电子档案数据中心,可以集中、规范地管理所有的档案信息,确保数据的安全存储、高效查找与借阅,能够提高企业管理效率。本文
新媒体时代的到来,越来越多的媒体出现在公众的视角下,每天的新闻报道量也与日俱增。如何帮助读者快速了解新闻热点事件,是一个具有研究价值的课题。现在主流媒体基本采用文字、视频等非结构化的数据形式记叙新闻事件,同时新闻平台的研究热点主要是基于用户兴趣和当前热点的智能推荐。不论是搜索结果还是推荐界面,信息碎片化与非直观化问题突出,对于新闻核心信息的提炼与结构化处理不足,因此无法高效的将热点新闻的核心信息传
作为21世纪重要的信息采集技术之一,无线传感器网络(Wireless Sensor Network,WSN)技术为人类获取物理世界中各种目标信息提供了基础支撑。传统WSN受制于电池供电节点的续航能力,难以长期有效运行,限制了WSN的广泛应用。近年来,国内外研究学者相继提出了能量收集型无线传感器网络(Energy Harvesting Wirlesss Sensor Network,EHWSN)技术
新闻一直是人们获取信息的重要途径,特别是随着移动智能终端的普及,微博、微信公众号等诸多新兴媒体逐渐代替了传统的纸质媒体。这些新媒体为了引人注目,往往将标题起的非常夸张,但新闻内容可能和标题毫不相干。当下快节奏的生活方式决定了阅读往往是碎片化的,人们急需一种方法能在短时间内快速了解新闻的重点内容。自动文本摘要技术可以对新闻进行压缩和总结,提取重点内容,过滤冗余信息,提高人们阅读效率。本文主要结合强化
随着互联网和移动设备的蓬勃发展,理解和研究社交网络中的信息传播过程,在近些年得到了学界和业界的广泛关注。规模预测或流行度预测的目标是对信息进行初期观测,然后预测其在网络中传播的范围和规模。如何在复杂、快速变化、受各种内外部因素影响的社交网络中准确地预测信息级联的规模,成为该问题的主要挑战之一。大多数已有的信息级联规模预测模型依赖于人工设计的特征工程和随机过程,或者通过神经网络来对其进行端到端的学习
电荷耦合器件(Charge coupled device,CCD)图像传感器作为主流的成像器件的一种,主要就是把光电信号变成电流电压信号,然后经过放大器放大,把目标物体显示出来的一种微型高端芯片。CCD的应用十分广泛,民用上比如家用卡片照相机、手机摄像头、行车记录仪、物业安防等;在军事上比如远程定位系统、红外遥感系统、隐形目标探测等;CCD在现代武器装备上应用也特别的多,尤其在卫星、航天器、微光夜