论文部分内容阅读
科研人员是构成科学研究队伍的基本单位。而随着计算机技术、互联网以及社交媒体的快速发展,学术领域内科研人员的合作与交流也日益频繁,进而产生了论文引文网络、作者引用网络以及作者合作网络等复杂网络。挖掘学术领域中科研人员的社区结构及主题分布,有助于把握特定领域的发展脉络及学科态势,促进科技创新合作。因此,复杂网络中社区发现方法的相关研究在国际科技创新合作的背景下备受关注。
早期学术领域的社区发现方法以引用、合作等关系为基础,结合图论、社会网络相关方法描绘出科研人员之间存在的社区结构。随着自然语言处理、文本挖掘等计算机技术的兴起,人们对于社区发现的需求已不满足于仅通过实际的引用、合作等行为去划分社区,而是试图从语义层面深入科研人员的研究内容,进而调整单纯从行为角度构建的物理拓扑结构。但已有的融入语义信息的社区发现方法中通过引文信息反映科研人员研究主题的方式所得到的结果误差较大,导致社区划分结果不够精准。此外,科研人员的研究方向与时俱进,呈现出跨学科交叉的现象,使得同一科研人员可能隶属于多个社区结构。综合上述研究背景,本文基于已有的社区发现方法进行改进,提出了融入作者主题相似度的重叠社区发现方法ATW-COPRA,旨在为基于海量的领域科技文献数据进行社区发现时,提供新视角。
本研究在分析国内外相关理论研究现状的基础上,针对已有方法存在的不足,提出从作者主题分布的语义层面以及合作关系的拓扑结构层面,并兼顾考虑科研人员同属于多个社区的情况,扩展学术领域社区发现的思考视角,构建了基于作者主题相似度的社区发现算法ATW-COPRA。该方法的核心思想为:通过作者主题模型得到作者主题概率分布,计算作者间主题相似度,并将其作为复杂网络社区发现算法COPRA社区隶属度划分的判别条件,降低社区划分过程中的随机性,使社区划分结果有效提升。
为了验证算法ATW-COPRA的有效性及准确性,本文以COPRA作为实验结果比较的基准算法,从模块度、参数对算法效果的影响、算法运行时间等角度对比分析,并选定生物医学工程领域为目标领域进行实证研究,对该领域的作者分布、主题分布、社区与主题关联关系以及社区间主题相似性进行可视化及分析讨论。通过对实验结果的分析,本文得出如下结论:基于作者主题相似度的社区发现方法具有良好的模块度,在保证时间效率的前提下提高了社区发现结果的精确性。同时,对于生物医学工程领域等前沿、交叉、新兴领域,虽然其部分研究主题会受到科技手段、人类伦理认知等因素的制约,但只要突破瓶颈,其新兴主题会快速促使新的社区结构形成,推动科技创新。因此,把握领域社区结构及主题分布,对支撑科技战略情报工作的实践、科技决策者的学科发展谋划布局、科研人员选题与合作指导均具有一定参考价值。
本文所提出的方法创新之处在于在关注合作关系的同时,从科研人员自身科研产出出发,挖掘其不同时间段内的研究主题,摆脱了引用角度的语义挖掘所带来的信息误差。在此基础上,引入多社区隶属度的概念使得社区发现结果更为精准地还原实际情况。该方法完善了现有社区发现的考量维度,弥补了已有方法的不足,为社区发现提供新思路。
早期学术领域的社区发现方法以引用、合作等关系为基础,结合图论、社会网络相关方法描绘出科研人员之间存在的社区结构。随着自然语言处理、文本挖掘等计算机技术的兴起,人们对于社区发现的需求已不满足于仅通过实际的引用、合作等行为去划分社区,而是试图从语义层面深入科研人员的研究内容,进而调整单纯从行为角度构建的物理拓扑结构。但已有的融入语义信息的社区发现方法中通过引文信息反映科研人员研究主题的方式所得到的结果误差较大,导致社区划分结果不够精准。此外,科研人员的研究方向与时俱进,呈现出跨学科交叉的现象,使得同一科研人员可能隶属于多个社区结构。综合上述研究背景,本文基于已有的社区发现方法进行改进,提出了融入作者主题相似度的重叠社区发现方法ATW-COPRA,旨在为基于海量的领域科技文献数据进行社区发现时,提供新视角。
本研究在分析国内外相关理论研究现状的基础上,针对已有方法存在的不足,提出从作者主题分布的语义层面以及合作关系的拓扑结构层面,并兼顾考虑科研人员同属于多个社区的情况,扩展学术领域社区发现的思考视角,构建了基于作者主题相似度的社区发现算法ATW-COPRA。该方法的核心思想为:通过作者主题模型得到作者主题概率分布,计算作者间主题相似度,并将其作为复杂网络社区发现算法COPRA社区隶属度划分的判别条件,降低社区划分过程中的随机性,使社区划分结果有效提升。
为了验证算法ATW-COPRA的有效性及准确性,本文以COPRA作为实验结果比较的基准算法,从模块度、参数对算法效果的影响、算法运行时间等角度对比分析,并选定生物医学工程领域为目标领域进行实证研究,对该领域的作者分布、主题分布、社区与主题关联关系以及社区间主题相似性进行可视化及分析讨论。通过对实验结果的分析,本文得出如下结论:基于作者主题相似度的社区发现方法具有良好的模块度,在保证时间效率的前提下提高了社区发现结果的精确性。同时,对于生物医学工程领域等前沿、交叉、新兴领域,虽然其部分研究主题会受到科技手段、人类伦理认知等因素的制约,但只要突破瓶颈,其新兴主题会快速促使新的社区结构形成,推动科技创新。因此,把握领域社区结构及主题分布,对支撑科技战略情报工作的实践、科技决策者的学科发展谋划布局、科研人员选题与合作指导均具有一定参考价值。
本文所提出的方法创新之处在于在关注合作关系的同时,从科研人员自身科研产出出发,挖掘其不同时间段内的研究主题,摆脱了引用角度的语义挖掘所带来的信息误差。在此基础上,引入多社区隶属度的概念使得社区发现结果更为精准地还原实际情况。该方法完善了现有社区发现的考量维度,弥补了已有方法的不足,为社区发现提供新思路。