论文部分内容阅读
随着知识爆炸性增长和学科体系日益复杂,如何有效地从海量文献中挖掘学科主题以及分析其演化模式成为一个值得深入探究的研究课题。解决这一问题,对理解科学的结构和发展,以及制定科技政策具有重要意义。然而,现有研究多聚焦于“常态科学”的内容演化分析,而对学科主题的爆发式发展模式关注甚少。并且,常见的主题发现与内容演化分析方法往往忽略文献的语义信息且未能结合文本挖掘和引文分析各自的优势。针对上述两方面存在的局限,本文开展了相关研究。
在探究学科研究内容的演变方面,本研究提出一种基于文本嵌入的主题演化分析方法。首先,利用Doc2Vec挖掘文献的语义主题特征,依据文献间的语义关联构建网络并使用社区发现算法探测主题结构,这样便实现了在语义层面发现学科主题。在此基础上,借助UMAP绘制领域地图并以关键词词云图进行主题内容标注,从而可视化主题间的结构。同时以密度等高线刻画文献分布的异质性,分析主题内的层级结构。最后,根据相邻阶段的主题间引用关系构建主题演化冲积图,以最大引用强度准确识别演化主路径。所提方法在机器学习领域识别出十二个全局主题以及“岛屿型”、“多山头型”和“星系状”三种主题“地貌”。然后利用冲积图清晰地展示了各个主题的生长、消亡、分裂和融合的演化现象。结合关键词和主路径分析,进一步揭示了近20年来机器学习领域的发展历程。实验结果表明,该方法是现有学科主题分析方法的有益补充。
在探究学科主题的爆发模式方面,本研究提出一种无参数的、基于量化引文曲线爆发程度的主题爆发模式识别方法。主题爆发模式刻画的是某些主题在出现数年后才迎来影响力高速攀升的特殊发展情形,这种爆发式主题往往会推动该领域产生重大内在变革。首先,本研究以主题历年的被引频次作为度量指标,并设计了“去泡沫化”方法用以解决引用膨胀问题。接着提出爆发系数,即通过计算主题的实际引用曲线与理想引用曲线的差距来衡量主题爆发特征的大小。然后将引用曲线突变年识别为主题爆发年。实证分析发现,计算机科学领域存在大量的睡美人文献和主题爆发模式,如“Topicmodel”主题和“Mobilecomputing”主题的发展模式呈现较大的爆发特征。通过分析主题在爆发年前后研究内容的变化,并探究主题的被引多样性与其爆发程度的相关性,本研究发现主题爆发的主要因素在于主题自身取得了重大的创新突破或出现了新兴研究方向。
本研究一方面提出了一种综合Doc2Vec、UMAP和引文分析的学科主题与演化分析方法,另一方面关注了“睡美人”现象背后的主题爆发模式并提出识别方法,进一步在方法以及实证分析层面加深了对当前学科演化和学科发展模式的探索和理解。
在探究学科研究内容的演变方面,本研究提出一种基于文本嵌入的主题演化分析方法。首先,利用Doc2Vec挖掘文献的语义主题特征,依据文献间的语义关联构建网络并使用社区发现算法探测主题结构,这样便实现了在语义层面发现学科主题。在此基础上,借助UMAP绘制领域地图并以关键词词云图进行主题内容标注,从而可视化主题间的结构。同时以密度等高线刻画文献分布的异质性,分析主题内的层级结构。最后,根据相邻阶段的主题间引用关系构建主题演化冲积图,以最大引用强度准确识别演化主路径。所提方法在机器学习领域识别出十二个全局主题以及“岛屿型”、“多山头型”和“星系状”三种主题“地貌”。然后利用冲积图清晰地展示了各个主题的生长、消亡、分裂和融合的演化现象。结合关键词和主路径分析,进一步揭示了近20年来机器学习领域的发展历程。实验结果表明,该方法是现有学科主题分析方法的有益补充。
在探究学科主题的爆发模式方面,本研究提出一种无参数的、基于量化引文曲线爆发程度的主题爆发模式识别方法。主题爆发模式刻画的是某些主题在出现数年后才迎来影响力高速攀升的特殊发展情形,这种爆发式主题往往会推动该领域产生重大内在变革。首先,本研究以主题历年的被引频次作为度量指标,并设计了“去泡沫化”方法用以解决引用膨胀问题。接着提出爆发系数,即通过计算主题的实际引用曲线与理想引用曲线的差距来衡量主题爆发特征的大小。然后将引用曲线突变年识别为主题爆发年。实证分析发现,计算机科学领域存在大量的睡美人文献和主题爆发模式,如“Topicmodel”主题和“Mobilecomputing”主题的发展模式呈现较大的爆发特征。通过分析主题在爆发年前后研究内容的变化,并探究主题的被引多样性与其爆发程度的相关性,本研究发现主题爆发的主要因素在于主题自身取得了重大的创新突破或出现了新兴研究方向。
本研究一方面提出了一种综合Doc2Vec、UMAP和引文分析的学科主题与演化分析方法,另一方面关注了“睡美人”现象背后的主题爆发模式并提出识别方法,进一步在方法以及实证分析层面加深了对当前学科演化和学科发展模式的探索和理解。