论文部分内容阅读
伴随着国家对科技创新的重视和科学技术的蓬勃发展,科学基金和成果的数目与日俱增,如何从大规模科学基金中精确地分析和掌握资助项目的主题演化过程、把握科学技术发展的现状以及未来研究的趋势至关重要。对于科技管理和科技决策部门,对国家自然科学基金资助项目主题的演化路径和预测进行研究有利于对科技资源进行合理配置、对科技创新进行精准资助、对科研成果进行有效评估等工作更好的提供支持。对于科研工作者,本研究有助于从宏观层面准确把握科学基金研究的趋势和主题研究动态,也有助于从内容、更深层次上深入了解主题中具体研究内容,更好的掌握领域及学科结构,从而避免重复科研、提高科研的效率,不断地推动创新性研究。
目前对科学基金的研究,主要是基于申请与资助数据利用统计分析、共现分析等科学计量学的方法以及文本挖掘方法对资助项目的绩效管理、科技监测等方面所做的研究。尽管现有的研究的确在对科学基金的绩效评估、科技监测等方面做出了贡献,但对未来科学基金资助项目方向和趋势的预测方面还需要进一步补充,特别是定量的预测,在挖掘科研项目内在科研价值的方法上也需要进一步完善。本文提出将主题模型和隐马尔科夫模型相结合的方法引入到科学基金资助主题的研究中,实现对科学基金资助项目主题的深度挖掘。首先根据科学基金的特点,建立了LDA主题模型,运用困惑度的方法求解最优主题数目,并通过计算熵值的方法过滤掉语义表达不明确的主题;其次在主题演化方法的研究中,运用后离散主题演化方式,通过计算每个时间窗口主题强度的方法进行主题强度演化;通过对标准KL距离进行改进,提出了使用对称KL距离来反应主题之间的相似程度,进而识别主题之间的演化关系进行主题内容的演化;最后将隐马尔科夫模型引入到对科学基金主题预测中,根据科学基金主题演化的特点以及存在的两个过程,建立了隐马尔科夫模型,以实现定量的预测。
本文选取国家自然科学基金2008-2017年对宏观管理与政策学科资助的项目的数据进行实证分析,运用LDA主题模型,识别出了宏观管理与政策研究的主题结构;选取研究者们高度关注且稳定的研究主题(创新、医疗、科技管理等)进行演化分析,发现并总结了各主题的演化规律;利用HMM模型训练得到最优转移矩阵和最优混淆矩阵,分析了不同主题的转移和混淆特性,并得出了各主题在未来三年的定量预测结果。实验表明:本文提出LDA模型与HMM模型相结合的方法很好的展现了主题演化的路径,预测结果也清晰的展现了主题在未来的发展趋势,为准确把握科学技术发展的现状和趋势提供了一种科学的方法。
目前对科学基金的研究,主要是基于申请与资助数据利用统计分析、共现分析等科学计量学的方法以及文本挖掘方法对资助项目的绩效管理、科技监测等方面所做的研究。尽管现有的研究的确在对科学基金的绩效评估、科技监测等方面做出了贡献,但对未来科学基金资助项目方向和趋势的预测方面还需要进一步补充,特别是定量的预测,在挖掘科研项目内在科研价值的方法上也需要进一步完善。本文提出将主题模型和隐马尔科夫模型相结合的方法引入到科学基金资助主题的研究中,实现对科学基金资助项目主题的深度挖掘。首先根据科学基金的特点,建立了LDA主题模型,运用困惑度的方法求解最优主题数目,并通过计算熵值的方法过滤掉语义表达不明确的主题;其次在主题演化方法的研究中,运用后离散主题演化方式,通过计算每个时间窗口主题强度的方法进行主题强度演化;通过对标准KL距离进行改进,提出了使用对称KL距离来反应主题之间的相似程度,进而识别主题之间的演化关系进行主题内容的演化;最后将隐马尔科夫模型引入到对科学基金主题预测中,根据科学基金主题演化的特点以及存在的两个过程,建立了隐马尔科夫模型,以实现定量的预测。
本文选取国家自然科学基金2008-2017年对宏观管理与政策学科资助的项目的数据进行实证分析,运用LDA主题模型,识别出了宏观管理与政策研究的主题结构;选取研究者们高度关注且稳定的研究主题(创新、医疗、科技管理等)进行演化分析,发现并总结了各主题的演化规律;利用HMM模型训练得到最优转移矩阵和最优混淆矩阵,分析了不同主题的转移和混淆特性,并得出了各主题在未来三年的定量预测结果。实验表明:本文提出LDA模型与HMM模型相结合的方法很好的展现了主题演化的路径,预测结果也清晰的展现了主题在未来的发展趋势,为准确把握科学技术发展的现状和趋势提供了一种科学的方法。