论文部分内容阅读
面对科技创新演变加剧和交叉融合加速的大环境,各国在不断前瞻部署科学研究前沿领域,如何及时有效地识别分析这些科学研究前沿及其主题内涵,评估未来发展趋势,对我国科技规划和战略部署具有重要参考价值。国内外相关专家学者从不同角度和思路对科学研究前沿识别进行了深入研究,提出了许多创造性的方法。但是,受数据源和分析原理的影响,存在时滞性、主题描述不准确等困难。为了克服以上困难,本文以科技规划文本和项目数据为研究对象,利用自然语言处理技术和情报分析相关理论方法,提出一种识别科学研究前沿的新方法。该方法通过语义相似度计算模型对比分析基于项目数据的科学研究前沿主题和基于规划文本的科学研究前沿主题之间的主题相似度关系,综合考虑项目布局强度、项目平均布局年等因素,实现科学研究前沿主题识别。 围绕本文的研究目的和研究思路,完成了以下五个方面的研究工作: (1)梳理了科学研究前沿识别和语义计算相关理论与方法及最新研究进展情况。 (2)提出了基于内容线索特征的条件随机场语义组块标注方法。在深入分析美国自然科学基金碳纳米管研究领域项目数据基础上,确定了“研究目标”、“研究方法”等6种蕴含在项目数据文本中的语义组块类型。利用词频统计和共词分析方法提出了浅层语法特征、上下文特征和核心线索词特征等内容线索特征集合。利用条件随机场模型,采用本文提出的内容线索特征集合,对NSF项目数据进行了语义组块标注实验。实验结果表明,在B-SUB、I-SUB、B-ACT、I-ACT、B-GOL、I-GOL、B-IMP7种标签标注中,增加内容线索特征后的精度值分别达到84.43%、89.09%、84.38%、89.87%、51.33%、50.37%、37.83%,与没有增加内容线索特征的标注结果相比精度值有了明显提升。特别是B-SUB、I-SUB、B-ACT、I-ACT四种标签,在增加了内容线索特征后精度值提升了10%以上,而本文重点标注的B-GOL、I-GOL标签也有5%的性能提升。 (3)实现了项目数据研究前沿主题聚类和语义主题表征。本文在语义组块标注基础上,提出了一种基于语义组块特征的文本语义相似度计算模型。在NSF项目数据上的实验结果表明,与原始余弦相似度计算模型相比,该模型可以有效提升文本间语义相似度。此外,由于该模型能够区分句子中词汇的语义角色,可以有效消除噪音数据的影响,并且可以降低向量空间模型维度,提升计算效率。与基于本体的计算方法相比,该模型不需要外部的本体库支持,模型的泛化能力也得到提高。根据本文提出的基于语义组块特征的文本相似度计算方法,实现了NSF项目数据研究前沿主题语义聚类,并利用语义组块特征进行了聚类主题语义描述。实验证明,经过语义组块特征预处理的项目数据,可以有效提升细分聚类主题区分度和提高聚类主题语义描述准确性。 (4)实现了科技规划文本研究前沿主题抽取。针对科技规划文本良好的论述结构,本文利用信息抽取技术,在JAVA平台上采用B/S模式开发了一种面向科技规划文本的科学研究前沿主题抽取工具。实验证明,该工具可以有效灵活的抽取出规划文本中的研究前沿主题,形成研究前沿主题地图。 (5)提出了基于语义计算的科学研究前沿识别模型并进行了实证研究。在生成的NSF项目数据科学研究前沿主题和科技规划文本研究前沿主题基础上,利用语义相似度计算技术对两组科学研究前沿主题进行语义主题相似度对比,挖掘两组科学研究前沿主题之间的主题相似度关系,根据语义主题相似度计算结果,综合考虑了项目数据中的布局强度、平均布局年等因素,提出了基于语义计算的科学研究前沿识别模型。通过碳纳米管研究领域实证研究表明,本文提出的方法能有效地识别出该领域科学研究前沿。 归纳起来,本文提出的基于语义计算的科学研究前沿识别方法具有以下两个方面的主要优势: (1)与基于论文数据分析方法相比,能够克服论文数据“过去式”的缺点,前瞻的识别出具有未来发展潜力的科学研究前沿主题。 (2)在研究前沿主题标注方面,与没有经过语义组块标注技术处理的数据相比,可以更加精准的针对细分研究方向进行科学研究前沿主题描述。