论文部分内容阅读
引文网络是由文献之间的引用关系构成的一种社会网络。随着信息技术的不断发展,文献资料数量显著增加,引文网络已经成为一个大规模复杂的网络系统,并受到了越来越多的关注。引文网络中包含丰富的知识流和研究成果,是学术领域中非常重要的知识库,所以对引文网络的研究具有非常重要高的学术价值和研究意义。社会网络分析方法在引文网络中的应用解决了引文网络数据量大,计算复杂度高的问题,并区别于统计方法从另外一个角度挖掘引文网络中的资源。在这种背景下,本文利用社会网络分析法,对引文网络进行深入的挖掘分析,其中挖掘的重点集中在引文网络中论文和作者的权威性分析以及引文网络的主题社区挖掘。本文中的具体研究内容涉及以下几个方面: (1)本文选取社会网络分析方法中的PageRank算法对引文网络中的论文和作者进行权威性分析。利用PageRank算法分别对论文引用网和作者引用网这两个有向网络计算论文和作者的PageRank值,并在计算过程中修改了算法参数使其更适用于引文网络。 (2)参考传统PageRank算法在权威性分析上的应用,并针对算法在引文网络的权威性分析过程中还存在的不足,本文提出了基于带权引用的权威性分析方法。传统PageRank算法在计算作者和论文权威性时是独立实现的,并没有充分利用二者之间的强关联性,基于带权引用的权威性分析方法弥补了这一不足。该方法是以PageRank算法为框架,并将论文引用网络中点的权重设置为作者权重的线性加权值,作者引用网络中点的权重设置为作者发表的论文权重的线性加权值,最后将点的权重加载到权威值的计算过程中。 (3)我们分别从引用结构特征和文本内容特征出发对引文网络进行主题社区挖掘。BGLL算法是基于引用结构特征的社区挖掘算法,可以实现大规模网络的社区发现。LDA模型是基于文本内容特征的主题建模模型,可以挖掘论文集中潜在的主题信息。本文分别以BGLL算法和LDA模型为基础,并添加了引文网络中其他信息,对ANN语料中论文引用网进行主题社区挖掘。本文对以上内容进行了深入的研究,实验结果表明利用社会网络分析方法对引文网络进行权威性分析以及主题社区挖掘取得了优良的成果,为后续研究的深入打下了基础。