论文部分内容阅读
Internet的出现对于人们的日常生活产生了巨大的影响,从之前人们通过报刊杂志进行手工查询信息到现在通过搜索引擎快速地获得信息,网络彻底改变了人们获取信息的方式。Internet目前是最广为人知且规模最大的信息源,人们可以很方便地搜索和访问信息。然而,网络的高速发展也给人们带来了烦恼。网络上有海量数据,并且数据量还在不断增长。海量的数据中必然会存在着许多质量低下,甚至带有误导性的信息资源。这会给人们使用网络挖掘有用信息增加了许多难度。目前,在学术界,随着互联网的发展,越来越多的学术资源通过网络进行交流,网络中学术资源呈爆炸式增长。对于研究者而言,在科学文献数量急剧增加的情况下,如何准确地找到对自己有用的高价值论文已经成为了一大难题。对科学论文价值的自动学术评价研究具有很大的现实意义。 目前的学术研究试图利用异质学术网络的结构来改善单一网络的学术评价效果。这些研究方法假设学术对象之间存在着互增强关系,比如,论文的价值会受到作者重要性和刊物权威性的影响。现有的大量研究方法利用异质学术网络中不同学术对象间多元多维关系,这些方法都把学术网络中“论文-作者-刊物”三元关系扁平地投影成“论文-作者”、“论文-刊物”、“作者-刊物”三组二元关系,该做法极易造成信息丢失,同时也会影响到评价效果。 本文提出了科学论文评价的新算法,该算法将科学论文数据间多元多维关系建模成异质学术超网,并在此基础上利用学术对象间互增强关系对学术对象的价值进行评价。一般利用无向同质超图来反映同类学术对象间关系,本文方法将无向超图拓展到有向超网。异质学术超网模型中,利用论文引用关系、作者合作关系分别构建论文引用超网和作者引用超网,论文和作者之间的多元关系则建模成异质超图。根据异质语义学术超网中学术对象间的互增强关系,在算法迭代计算中,论文的权威度主要来自三个部分,分别是来自论文引用超网上施引论文的权威度、来自论文-作者异质超图上该论文合作者的重要度,以及来自每篇论文的先验权威度。 由于现有的学术评价方法缺少统一合理的实验环境,不同算法间的性能和效果的比较变成一个困难的问题。因此,本文利用ACL Anthology Network建立标准的评测环境,并在此环境上进行大量实验。本文选取了具有代表性的异质学术网络评价算法作为对比对象,分别是CoRank算法、FutureRank算法,以及P-Rank算法,同时,PageRank算法和RandHITS算法作为对比实验。实验结果表明,使用异质学术网络建模论文、作者间多元多维关系有助于改善论文评价效果,而且异质学术超网对于科学文献数据库中的多维多元关系有更好的建模能力。本文所提出的学术评价算法对比典型的异质网络排序算法CoRank和FutureRank算法,返回结果更加贴近于金标准。