服务于开源科技情报感知的数据价值评估模型研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:dashiliangzeyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开源科技情报类型多样、数量繁多,真正有价值的信息可能会被海量的无效信息淹没,为了应对这种情况,实现对数据的收集、处理、描述,获得满足用户需求的高情报价值数据,本文提出服务于开源科技情报感知的数据价值评估模型研究。
  本文完成的核心内容包括4个部分:第一,根据文献调研和项目实际需求确立数据价值评价的特征为:基础特性(权威性、影响力、关注度)、内容特性(领域相关度、完整性)、前沿特性(新颖性、时效性、领域交叉性)。第二,主要研究各层次数据价值评估特征的测度方法,分别基于Word2vec、LDA主题模型、统计学方法对上述数据价值评估特征指标进行标准化计算。第三,综合上述数据价值评估指标,将数据价值评估模型计算定义为数据基本特性、内容特性、前沿特性的线性组合,采用专家打分法对指标权重进行赋值,通过实验调整确定最终数据价值模型和价值判断阈值。第四,对模型进行评价,首先,计算测试集和训练集的精确率、召回率、F1值,并进行对比来分析评价模型的泛化能力;其次,从服务于开源科技情报感知的角度来分析评价模型的实际应用能力。
  实验结果表明,本文提出的服务于开源科技情报感知的数据价值评估模型,以单篇文章作为评价粒度,对每篇文章进行数据价值计量,可以实现从类型多样,数量繁多的开源科技信息中筛选出符合用户需求的高价值数据,在一定程度上证明了本文提出的数据价值评估模型具有合理性和可操作性。
其他文献
新媒体平台的本质是社交媒体,依托于网络,对象是广大网民,兼具发布功能,因而在一定程度上与新闻媒体有相似之处。两者都能对社会热点问题做出及时反馈。但微信公众号学术资源较为分散,且质量参差不齐。集中揭示质量较高的学术信息资源,不仅有助于拓展信息资源建设内涵,更可以利用知识组织相关方法和工具对其中富含的知识单元进行识别和计算,为后续开展学术热门话题识别与跟踪服务、个性化学术信息推荐服务等打下基础,以进一
标准体系是一定范围内的标准,根据其内在联系形成的科学有机整体,它是编制标准和修订计划的依据。标准体系包含了宏观标准体系和微观标准体系两种,其中宏观标准体系是指某领域所有标准构建的体系结构,微观标准体系是指某个标准的体系结构。无论是宏观标准体系还是微观标准体系,若要进行标准体系构建,标准工作者就需要从海量资源汇中提炼出大量的概念、关系、结构,需要耗费大量的人力、物力。为解决这一问题,本文提出了一种基
学位
在知识经济时代,高层次科技人才是经济发展的巨大驱动力。吸引集聚高层次科技人才是发挥其科技创新能力的前提保障。因此,研究创新型城市中高层次科技人才的集聚规律和特征以及剖析高层次人才聚集过程中的规模数量、人才类型、学科背景、来源地与创新型城市发展的关系一方面可以更好地激发高层次人才的最大潜力、发挥人才集聚效应,另一方面可以为城市引进人才提供方向参考,提高引才成功概率。  本论文以城市为单元研究高层次科
学位
近年来,随着社会经济的发展和国家对科研活动投入的加强,我国科技整体水平持续提升。但伴随着科技事业的迅速发展,科研活动中的科研不端行为屡有发生,其中主要出现在以高等院校与科研院所为主的科研机构中,严重影响了我国科技事业的发展进程。此时,我国正加快推进世界顶尖科研机构的建设,科研诚信作为创建顶尖科研机构的重要保障,对我国科研机构的发展至关重要。因此,有效衡量科研机构的科研诚信建设化水平,进一步加强科研
学位
以人工检索与判别为主的传统科技查新存在两个不足,第一严重依赖“人力”和专家资源,在科技发展速度不断加快,科技查新业务爆炸性增长的今天,传统方式难以应对海量业务;第二,科技查新并非简单的文献检索问题,科技查新数据有其独特的内部和外部特征。同时人工智能技术取得了长足发展,利用机器学习技术对科技查新流程进行更新和升级,有其必要性和紧迫性。  由于科技查新是以文献检索为基础,对检索结果综合分析并进行新颖性
近年来,随着国内外学术不端行为不断被曝光,科研诚信问题引起了各国广泛关注,我国科研诚信问题涉及面广,社会各界对科研诚信问题的关注度高。国际学术期刊撤稿事件成为媒体焦点,学术期刊作为科研活动的重要一环、科研成果的重要载体,面临着负面问题的挑战,对学术期刊的负面影响的研究成为一个新的课题。本文通过建立学术期刊负面问题指标体系,从负面对期刊进行评价分析,一方面可以反映学术期刊负面问题的分布情况,了解主要
学位
术语是领域专家用来刻画、描写领域知识的基本信息承载单元,也是科技文献的核心成分,因此术语翻译的准确性将直接影响到科技文献翻译的整体质量。机器翻译系统在翻译篇章级别的科技文献时,通常采用切分句子、逐句翻译再合并翻译的流程。此种翻译策略导致机器翻译系统在句子语境中对其中的术语进行翻译时,通常会遇到两个问题:1)领域不一致:术语具有较强的领域属性,在不同领域和上下文语境中,翻译会有差异,这种在领域发生变
学位
改革开放至今,我国对外经济发展形式逐渐从简单的以劳动力和自然资源等为主的基础生产要素输出以及以产能和资本输出为主的产品输出,转向为以技术、标准、服务等打包的输出方式。尽管如此,我国在以知识和技术贸易为代表的国际科技合作中与发达国家仍存在差距。技术输出对于加速实现从中国制造到中国创造的转型升级,向先进的技术输出、标准输出国转变提供了一个历史性机遇。2013年“一带一路”倡议的提出则是我国推动技术输出
近年来,全球恶性肿瘤发病率和死亡率持续升高,如何利用已有的诊疗经验进行归纳总结,挖掘潜在的、有效的诊疗关系,以加强恶性肿瘤防治工作,成为医务工作者迫切需要解决的问题。随着我国医药卫生信息化的发展,各大医院已经积累了丰富的中文肿瘤电子病历。电子病历中蕴含着丰富的医学事实,然而其非结构化的文本结构,包含大量的医学专业术语、缩略语等特点,给大数据环境下电子病历的组织和利用带来极大的挑战。知识图谱作为人工
在当前专利申请量和无效请求量剧增的背景下,本研究探索用人工智能方法辅助专利审查工作,提高审查工作的效率与专利授权的准确性,促进科技进步。研究中将审查工作中对于对比文献的检索问题转化为判断目标专利与对比文献是否相关的分类问题,并用深度学习代替人工阅读,解决专利的可专利性判断问题,从而将专利审查工作转化为专利相关性判定模型构建和专利无效判定模型构建两个步骤。  本研究首先针对传统的基于信息检索查找对比