论文部分内容阅读
科技文献是科学研究和技术研究成果的最终形式之一,是传递情报信息和交流学术思想的重要载体。阅读科技文献是科研人员获取知识的重要渠道,也是科研人员进行学术研究和科学决策的重要基础。主题是科技文献内容的提示符,是文献所包含的学术思想及学术观点的凝练和总结。主题是随着时间不断演化的,演化过程包括新主题的产生、旧主题的消亡、某个主题向其他主题的渗透或收敛等现象。展示科技文献中主题的演化过程有助于科研人员把握研究的脉络,并辅助科研人员进行科学决策。本研究以主题演化分析为主线,用时序主题链的方式来展现科技文献中主题随时间变化的事实。提出了时序主题链的模型和构建方法,并基于科技文献进行了实证研究,而且对实证研究中的主题交叉融合特征进行了量化研究。第一,针对带有时间标签的文本集合,提出了时序主题链模型及其构建方法。将互信息的思想引入主题词的提取过程,以更好的表示主题含义;考虑到新主题更容易、更快地传承下去,在构建转移概率公式时引入了衰减因子,并利用艾宾浩斯遗忘规律进行度量;构建时序主题链时,搜索各个主题的来源和去向,以完整的展示主题的发展脉络。第二,针对科技文献数据,利用所提出的时序主题链构建方法进行实证研究。结果表明,时序主题链可以展示主题随时间变化的过程,并能揭示主题演化过程中不同主题间的隐含关系。第三,以实证研究中的时序主题链为研究对象,分析主题演化过程中的交叉融合特征,并提出量化方法。时序主题链中存在融合式结构,此结构能揭示不同主题相互渗透、相互作用的交叉融合特征。为研究不同主题间发生交叉融合的概率大小或难易程度,利用融合式结构对主题融合度进行量化。时序主题链可以揭示文献中各个主题的发展脉络和不同主题间隐含的关系,主题交叉融合特征分析有助于发现创新切入点和解决问题的思路,对科研人员具有重要的引导和启示意义。