论文部分内容阅读
学术社团是某邻域中有共同的研究兴趣及相近的研究方法、联系比较紧密的研究人员所形成的小团体。目前学术社团一般以所在单位、师承关系或者学术活动为分界,形成一个个的学术团体。一名学者想要了解本邻域内其他团体的研究成果,往往需要花费较大的精力和代价去梳理各学术流派及其方法论。这在一定程度影响了学术资源的共享、继承和研究人员之间的交流。因此,高效的学术社团挖掘方法就彰显出其价值。挖掘学术社团的一个传统做法是从论文引用关系入手。论文之间可以有以下几种关系:直接及间接引用关系、耦合关系、合著关系、同引关系等。通过这些关系可以构建出论文引用网络。论文引用网络中节点之间关联度可以用以上几种关系的量化指标来刻画,从而得到一个论文节点之间关联强度的量化表示的论文引用关系网络。在论文网络上按论文作者进行聚合就可以得到关于论文作者的引用关系网络。作者的引用关系网络表征的是作者之间的论文引用关系。另一方面,科研人员共同参加同一个学术会议和论文撰写时的合著现象是天然的学术社团属性,但尚未引起研究人员的重视。考虑到会议论文的作者不一定出席会议,为叙述方便,凡是在同一个学术会议上发表了论文的作者都视为共同参会。共同出现在同一个会议上的作者往往具有相同的研究兴趣,很可能属于同一个学术社团,尽管他们之间可能不存在论文引用关系。因此,作者共同参会的信息对学术社团的精准挖掘起到比较大的作用。基于作者共同参会的信息可以构成作者的共同参会关系网络。作者间的合著现象是一种更为紧密的联系。共同撰写论文的作者往往来自相同或相近的研究邻域,很可能属于同一个学术社团,对学术社团的精准挖掘也会起到作用。基于作者合著的信息可以构成作者的合著关系的网络。共同参会关系网络和合著关系网络都是表征作者之间的一种关联关系。由上可知,作者之间存在着三个关系:论文引用关系、共同参会关系和合著关系。可以利用这些关系构成作者的多关系图。将这三个关系强度进行加权可建立作者之间的关联度的指标。最后,利用作者的关联度通过社团挖掘算法对学术社团进行挖掘。本文使用的社团挖掘算法是基于DBSCAN算法的改进算法。传统的DBSCAN算法需要输入聚类半径和邻域数量2个参数,给算法的应用带来一定的局限性,本文提出了一种基于数据集本身统计信息自动确定参数的改进DBSCAN算法并应用于学术社团挖掘。本文使用DBLP数据库作为实验数据集,DBLP数据记录包含了论文标题,作者,发表年份,发表期刊或会议、参考文献等信息。利用这些信息构建由论文引用关系、共同参会关系和合著关系构成的作者多关系图。通过对作者的这三种关系加权计算得出作者的关联度,最后利用这些作者之间的关联度通过聚类算法进行学术社团挖掘。实验结果表明:改进的DBSCAN算法对于DBLP数据库的学术社团挖掘优于传统的DBSCAN算法;考虑作者共同参会因素和合著因素后的作者关联强度关于学术社团挖掘的效果优于没有考虑共同参会因素和合著因素的效果;考虑作者共同参会因素和合著因素后的作者关联强度关于学术社团划分的簇结构的稳定性更强。