论文部分内容阅读
随着科技信息的发展,科学研究领域数据库的数量和容量迅猛发展,科研人员被淹没在数据和知识的海洋里,对科技现状的准确把握及发现具有潜力的研究机会的难度加大,而且对这些潜在的研究机会选择和评价也很困难。 本文综合技术机会和机会发现两个领域中关于机会的定义对科学研究机会进行了界定,认为科学研究机会是科学研究进步的机会,是对科研决策支持有重要影响的主题或关系,并将其分类为低频主题机会、知识涌现机会、关联机会。将关联机会与社会网络分析的三元闭包原理(Triadic closure)、非相关文献间知识发现模式以及逻辑推理学中的三段论在复杂网络表示层面统一起来,视为对科学知识网络潜在连边的预测,为应用复杂网络链接预测方法进行科学研究机会中关联机会的研究提供了充分的理论和方法基础。在此基础上提出了一种基于链接预测的科学研究机会发现方法。该方法从筛选的高质量文章集合中提取关键词和单词,分别构建关键词和单词共现矩阵,然后从两个角度构建测试集与训练集,对10种不含权链接预测指标及6种含权链接预测指标进行了计算。之后从三大评估角度选取效果较好的预测指标,通过熵权法进行指标融合得出预测组合出现的可能性大小,从而构建起适用于特定网络结构特征的链接预测模型,进而实现对尚未共现的、有价值的主题词组合即关联机会的发现,为科学研究提供定量依据。最后,选取自然语言处理领域,对所提方法进行了应用研究,从共现网络基本特征角度验证了方法的可能性,从关键词、单词两个角度分别详细阐述了方法所涉及的具体步骤的实际操作流程,并结合方法相关原理对预测结果进行了解析,验证了方法的可行性。 本文的新颖之处在于:第一,对科学研究机会进行了界定,并从关键词、单词两个角度对关联关系中蕴含的科学研究机会即关联机会进行了描述与分析;第二,基于文献信息,运用链接预测方法,提出了基于链接预测的科学研究机会发现方法,实现了预测模型构建过程中涉及的关键技术,并将其进行了实际应用。第三,从关键词、单词两个方面进行科学研究机会挖掘,研究角度更广泛、更全面,其中单词组合在一定程度上还可用于探索新概念,对知识涌现机会进行了初步研究。