论文部分内容阅读
在计算机科学蓬勃发展的今天,国际上出现了一批批计算机领域的的会议、期刊以及数量庞大的科研院所和高校。这些会议和期刊每年收录数以万计的论文,引导促进计算机科学的发展。如何对这些计算机领域的会议、期刊,各大计算机科研机构以及每篇论文和论文作者的影响力进行评分评级,是当前学者们讨论的热点问题。虽然当今存在许多学术排名系统,但它们有很多不足:系统所收录的会议期刊集合不够全面,发表论文遗漏现象严重,作者和学术机构信息没有归一化,学术排名结果与真实情况相差较大。对文章领域分类不够清晰细致,对于子学科的检索与排名较为混乱,无法反映计算机学科各个研究领域内的真实学术研究情况。还有些系统所收录的会议、期刊集合不够精炼等等。我们设计并实现了一种基于Google Scholar以及多种数据源的计算机科学学术排名系统——CSAR(Computer ScienceAcademic Rankings)。在CSAR项目课题中,我们首先列举现今较为流行的几个计算机学术搜索、排名网站,考察其各自的优劣。之后我们提出关于网络的学术排名的主要问题以及相应的解决方法和理论依据。设计并完善CSAR系统的主体架构:信息采集模块、信息归一化模块、学术网络建模模块和学术影响力模块。我们通过网络信息语义分析,智能地从网络中抓取会议期刊以及论文的准确信息。借助全球学术机构信息库,归一化不同数据源的采集信息,提高数据采集的质量。通过机器学习算法,对收录论文进行精确分类。最后构建计算机科学学术网络,发布权威学术排名。