论文部分内容阅读
武器装备技术的发展离不开科学技术的推动,当前随着信息技术的深入发展,大数据时代已经悄然而至。大数据为科学研究带来了重大机遇的同时,其所带来“数据眩晕”和“数据冗余”效应不容忽视。面对大数据对科研工作所带来的巨大挑战,准确、快速、实时地把握和预测科研发展态势,已经成为科研工作者和科研管理高层决策者的迫切需要。在对传统科学知识图谱深入研究的基础上,本文提出一种基于网络和单词分布式嵌入的三维科研态势演化图谱模型,该方法对于掌握科技发展动向,挖掘技术前沿,把握技术机会,促进装备科技发展具有较大的参考价值。论文工作主要包括以下几个方面:基于关键词共现网络,利用网络嵌入算法,生成反映共现网络特征的结构向量。该方法将关键词视作共现网络中的节点,利用复杂网络嵌入的方法,将原有的节点特征由原始的二值向量映射为低维空间的实数向量,解决了数据稀疏性的问题,同时所得到的关键词结构向量既可以用于评估节点之间的结构相似性,又可以深入分析原有网络的诸多潜在特征。基于Labeled LDA和word2vec的关键词语义向量生成算法。该方法将关键词视作摘要文档的对应标签,首先利用Labeled LDA模型计算出关键词与摘要中单词的映射关系,然后将映射关系融入深度神经网络语言模型word2vec中去,得到可以反映关键词语义特征的语义向量,用来度量关键词节点的语义相似关系。提出了一种考虑作者权重影响的关键词重要度迭代计算方法。该方法既考虑了网络中邻接节点和邻居边对重要度计算的影响,同时将节点自身的重要度也融入计算过程,可以有效反映关键词的重要度。构建了三维科研态势图谱组合框架,提出三维科研态势图谱的四种生成算法。分别从节点类型、节点向量类别、时间因素等角度对三维科研态势图谱进行了分类,构建了三维科研态势图谱的组合框架;提出了四种三维科研态势图谱生成算法,通过实验分析了各个算法的特点。研发了基于上述理论的科研态势演化可视化平台TVIZ。该平台基于本文理论,可以对SCI、CNKI、CSSCI、EI以及专利文献进行综合分析,支持网络分析、技术成熟度分析、自然语言分析及可视化展示等功能。本文对科学知识图谱的研究,融入深度学习理论、复杂网络分析理论和自然语言处理技术,一定程度上深化了科学计量学和科学知识图谱的研究,相应成果对科学计量学、自然语言处理和复杂网络分析均具有一定的参考价值。