文献排名预测算法及作者影响力评估算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:zxypost
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学术影响力评估是指针对文献、学者、期刊和科研机构等评估对象,评估其在学术领域的影响。学术影响力评估可以分类为以下四类问题:(1)文献价值评估问题及预测问题;(2)作者影响力评估问题;(3)期刊(会议)影响力评估问题;(4)机构影响力评估问题。这四类问题分别针对不同的内容,采用不同的方法来实现影响力评估。学者们可以基于文献评价结果,快速地掌握某一领域的研究重点和研究热点;可以基于作者的评价结果,了解该领域的学术专家;基于期刊的评价结果,掌握不同期刊的等级层次和参考价值;通过机构影响力评估,发现走在各个领域前沿的学术机构。因此,如何更加合理地解决这四类问题,是值得研究的问题。由于解决前两个问题,即文献价值评估和作者影响力评估问题,能够为期刊和机构的影响力评估问题提供基础,因此本文针对文献价值评估和作者影响力评估问题,分别提出了不同的解决方法,完成了如下工作:(1)提出了一种文献排名预测算法PRank。本文研究和分析了FutureRank算法和刘大有等人提出的算法的不足(如算法执行时间较长、预测精度有待提高等),通过改进这两种算法,得到了一种运行时间较短,精度较高的算法。该算法根据经验知识,如文献当前被引用情况,文献的发表时间等信息来预测文献的未来价值。由于本文提出的算法不需要进行类似于PageRank或HⅠTS算法的迭代过程,因此,算法的运行时间较短。此外,本文通过三个不同的数据集对提出的预测算法进行了验证。实验表明,本文提出的算法在预测精度上较其他两种算法有一定程度的提高。(2)基于PageRank和h-index提出一种作者影响力评估算法PR-index。当前,作者影响力评估方法可以分类为基于统计的评估方法和基于学术网络结构的评估方法。H-index作为一种基于统计的方法,虽然综合考虑了作者的文献数量和文献的被引用次数。然而,被引用次数的多少并不一定和文献的质量呈正比。因此,本文采用文献的PageRank值作文文献价值的评估方法,通过对文献的PageRank值的转换,将文献的PageRank值转换为类似于文献被引次数的值。最后,基于该PageRank值和作者的文献数量,计算作者的h-index值,即可以得到作者影响力的评估值。为了对本文提出的算法进行验证,本文基于从微软学术下载的数据挖掘领域的数据集对提出的算法进行验证,并使用了数据挖掘领域的大奖——SIGKDD Innovation Award的获得者的平均排名作为评估指标。实验表明,本文提出的算法得到的作者排名结果较其他算法而言更为合理。
其他文献
学位
随着现代工业生产的迅速发展,人们的物质生活所需品日益丰富,生活质量极大地提高。与此同时,由于工业生产设备的大量投入使用,对灾难性事故危害的潜在风险的控制也成为了不容忽视的问题,人们对危害其生命、财产和环境等各类风险也越来越难于容忍。为了提高工业生产的安全性,通常采用安全仪表系统(Safety Instrumented System, SIS)在出现安全事故之前发挥其安全功能,避免安全事故的发生,或
当前,在互联网上传输的视频数据占据了网络流量的大约70%。毫不夸张的说,视频数据是大数据时代最大的数据。如何让计算机更好的看清与理解眼前的世界不是一个简单的问题,近年来也
基于监控场景下的行人重识别问题是当前计算机视觉领域研究的热点,主要任务是指行人在穿梭于监控场景中摄像机网络的视频或图片的匹配,特别是对于非重叠视域的多摄像机网络结构
随着信息技术的高速发展,传统医疗正在向更加电子化和数字化的方向发展。电子医疗档案是标准化的居民基本健康相关信息。它不但能为医疗工作者提供参考信息,还能和其他信息系
近几年,随着国内互联网技术的迅猛发展,几大电商如淘宝、京东等,正悄然改变着大众的生活方式;同时,随着微博等社交网站的崛起,国内互联网用户越来越多的在网络上发布自己的主观观点
计算机技术的快速发展使得有限元分析在机械设计与研宄中得到了广泛的应用。在机床设计与制造领域,运用计算机动力学仿真与CAE技术可以在机床开发试制之前对其零部件的工作情
云计算给社会带来了许多变化,社会生活被不断地数字化。如何处理海量的数据成为了一个令人关注的话题。Hadoop是一个分布式计算软件框架,其包含分布式存储和MapReduce计算,能
强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续
高维多目标优化问题是现实社会中普遍存在的一种实际优化问题。相对于普通两到三个目标的多目标优化问题,高维多目标优化问题的最明显特征是目标个数较多,一般大于三个。而且,随