论文部分内容阅读
引文网络(Citation Network,CN)是一种特殊的社会网络,通过文献间的引用关系构建一个大规模的复杂网络,一篇文献的发表形成了网络中的一个节点,文献通过引用其他文献形成网络中的有向边。引文网络中包含丰富的期刊、作者和研究领域等内容属性,蕴含着知识流和信息流的传播。随着科学文献数量的急剧增多,如何准确识别有价值的研究文献成为了一个重要的问题。为此,本文在深入研究数据挖掘算法基础上,开展了科学文献影响力评价和主题社区发现两个研究方面的工作:(1)学术影响力评价一直是文献计量学领域的一个研究热点。已有的一些基于数据挖掘的学术影响力评价方法大多忽略了恶意活动产生的影响,导致评价结果欠佳。为解决这一问题,提出了一种称为ReputeRank的新方法,它采用信誉机制来评估引文网络中出版物的有效性。信誉机制包括三个阶段,种子集选择阶段,信誉传播阶段和集成计算阶段。首先,ReputeRank利用SCI期刊分区信息选择引文网络中潜在的好种子和坏种子。然后,根据信誉传播思想,使用TrustRank和Anti-TrustRank评价公式在引文网络中迭代地传播信任值和不信任值。最后,根据引文网络中的信任值和不信任值,利用综合集成公式对每篇论文计算评分,并根据评分结果对所有论文降序排列。在KDD cup 2003数据集的实验结果表明。与3种影响力评价方法PageRank、CountDegree和SPRank进行对比,ReputeRank能够得到更优的效果。(2)引文网络社区发现一直是复杂网络的研究热点。传统的研究方法将引文网络看做静态图来进行社区发掘,忽视了引文网络随时间演化的动态特性。为了进一步提高引文网络社区发现的准确率,本研究提出一种基于伯努利生成主题模型和引领者-追随者策略的引文网络动态社区发现方法。首先根据伯努利生成主题模型生成主题概率分布矩阵,然后结合主题分布概率和引领者-追随者策略识别每一时间段内网络中的的引领者节点和追随者节点,最后按照时间维度将跟随同一引领者的节点归为一个社区。在CiteSeer和Cora数据集的实验结果证明,本研究提出的方法与其他3种经典算法相比,在标准化互信息(Normalized Mutual Information,NMI)和模块度两项综合评价指标上效果较优。