基于语义计算的科学研究前沿识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:KAI12321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对科技创新演变加剧和交叉融合加速的大环境,各国在不断前瞻部署科学研究前沿领域,如何及时有效地识别分析这些科学研究前沿及其主题内涵,评估未来发展趋势,对我国科技规划和战略部署具有重要参考价值。国内外相关专家学者从不同角度和思路对科学研究前沿识别进行了深入研究,提出了许多创造性的方法。但是,受数据源和分析原理的影响,存在时滞性、主题描述不准确等困难。为了克服以上困难,本文以科技规划文本和项目数据为研究对象,利用自然语言处理技术和情报分析相关理论方法,提出一种识别科学研究前沿的新方法。该方法通过语义相似度计算模型对比分析基于项目数据的科学研究前沿主题和基于规划文本的科学研究前沿主题之间的主题相似度关系,综合考虑项目布局强度、项目平均布局年等因素,实现科学研究前沿主题识别。  围绕本文的研究目的和研究思路,完成了以下五个方面的研究工作:  (1)梳理了科学研究前沿识别和语义计算相关理论与方法及最新研究进展情况。  (2)提出了基于内容线索特征的条件随机场语义组块标注方法。在深入分析美国自然科学基金碳纳米管研究领域项目数据基础上,确定了“研究目标”、“研究方法”等6种蕴含在项目数据文本中的语义组块类型。利用词频统计和共词分析方法提出了浅层语法特征、上下文特征和核心线索词特征等内容线索特征集合。利用条件随机场模型,采用本文提出的内容线索特征集合,对NSF项目数据进行了语义组块标注实验。实验结果表明,在B-SUB、I-SUB、B-ACT、I-ACT、B-GOL、I-GOL、B-IMP7种标签标注中,增加内容线索特征后的精度值分别达到84.43%、89.09%、84.38%、89.87%、51.33%、50.37%、37.83%,与没有增加内容线索特征的标注结果相比精度值有了明显提升。特别是B-SUB、I-SUB、B-ACT、I-ACT四种标签,在增加了内容线索特征后精度值提升了10%以上,而本文重点标注的B-GOL、I-GOL标签也有5%的性能提升。  (3)实现了项目数据研究前沿主题聚类和语义主题表征。本文在语义组块标注基础上,提出了一种基于语义组块特征的文本语义相似度计算模型。在NSF项目数据上的实验结果表明,与原始余弦相似度计算模型相比,该模型可以有效提升文本间语义相似度。此外,由于该模型能够区分句子中词汇的语义角色,可以有效消除噪音数据的影响,并且可以降低向量空间模型维度,提升计算效率。与基于本体的计算方法相比,该模型不需要外部的本体库支持,模型的泛化能力也得到提高。根据本文提出的基于语义组块特征的文本相似度计算方法,实现了NSF项目数据研究前沿主题语义聚类,并利用语义组块特征进行了聚类主题语义描述。实验证明,经过语义组块特征预处理的项目数据,可以有效提升细分聚类主题区分度和提高聚类主题语义描述准确性。  (4)实现了科技规划文本研究前沿主题抽取。针对科技规划文本良好的论述结构,本文利用信息抽取技术,在JAVA平台上采用B/S模式开发了一种面向科技规划文本的科学研究前沿主题抽取工具。实验证明,该工具可以有效灵活的抽取出规划文本中的研究前沿主题,形成研究前沿主题地图。  (5)提出了基于语义计算的科学研究前沿识别模型并进行了实证研究。在生成的NSF项目数据科学研究前沿主题和科技规划文本研究前沿主题基础上,利用语义相似度计算技术对两组科学研究前沿主题进行语义主题相似度对比,挖掘两组科学研究前沿主题之间的主题相似度关系,根据语义主题相似度计算结果,综合考虑了项目数据中的布局强度、平均布局年等因素,提出了基于语义计算的科学研究前沿识别模型。通过碳纳米管研究领域实证研究表明,本文提出的方法能有效地识别出该领域科学研究前沿。  归纳起来,本文提出的基于语义计算的科学研究前沿识别方法具有以下两个方面的主要优势:  (1)与基于论文数据分析方法相比,能够克服论文数据“过去式”的缺点,前瞻的识别出具有未来发展潜力的科学研究前沿主题。  (2)在研究前沿主题标注方面,与没有经过语义组块标注技术处理的数据相比,可以更加精准的针对细分研究方向进行科学研究前沿主题描述。
其他文献
计算机网络的快速普及以及网络技术、信息技术的迅速发展,给传统生物医学信息服务带来了巨大的冲击.网络环境下的生物医学信息服务是目前服务方式的重点和将来的发展方向.本
比较政府信息商业化与政府信息公开的联系与区别,研究政府信息商业化产生的政治、技术和经济原因,从版权和开发者的角度将政府信息商业化分为4种模式,并从安全、公平和效率三
该文以马克思主义的唯物史观为指导,运用全面的、历史的、发展的观点,对档案中介机构的产生与发展的进程及其在发展进程中所存在的问题作一初探性研究.该论文共分为前言、正
如何有效地对政府信息资源进行管理是社会各界关注的焦点,也是政府管理的当务之急。与此同时,生命周期方法正越来越多地被理论界用来研究各自领域的现象和问题。美国图书馆情报
在信息时代,信息资源同物质资源、能源资源一起构成现代社会经济与技术发展的三大支柱性资源,并日益成为首要支柱。在同样的物质和能量资源配置条件下,不同的信息资源配置会产生
介绍世博信息化建设的背景,分析世博信息化建设的目标,提出世博信息化的三级圈域结构。构建世博信息化建设的一般框架,并围绕该框架,介绍用户层、门户层、决策层、应用层、支
2014年12月刊58页,《大众创业》杂志社“年赚30万的机会全国招募站长”广告,请读者暂停与其发生业务联系。目前当地警方已经介入,案件处于侦破阶段。特此公告。 December 20
科研机构是国家科技创新体系的重要组成部分,对其科研实力和发展潜力的评价和预测越来越受到科研管理和科研评价等领域的重视。但现有的相关研究和实践活动,较少有从研究内容或
摘要:情景教学作为英语教学中的一种方式,已经越来越受到广大师生的欢迎。七年级是英语学习的入门阶段,在英语课堂教学中应多创设具体的情景,使学生积极地参与到真实的或模拟的活动中。本文主要从情景教学和分析七年级学生英语学习特点出发,谈谈如何将情景教学融入七年级的课堂教学环节,以及七年级学生薄弱的词汇和语法教学中。  关键词:情景教学;七年级;英语教学  中图分类号:G632.0 文献标识码:A 文章编号
主题:文献计量方法在战略情报研究中的应用文献计量学方法在战略情报研究和决策信息分析中发挥着重要作用。很多专业信息服务机构和企业组织在科技战略情报研究和决策服务中
期刊