基于语义的相关文档探测方法在科技查新数据中的应用研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:w198911154
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以人工检索与判别为主的传统科技查新存在两个不足,第一严重依赖“人力”和专家资源,在科技发展速度不断加快,科技查新业务爆炸性增长的今天,传统方式难以应对海量业务;第二,科技查新并非简单的文献检索问题,科技查新数据有其独特的内部和外部特征。同时人工智能技术取得了长足发展,利用机器学习技术对科技查新流程进行更新和升级,有其必要性和紧迫性。
  由于科技查新是以文献检索为基础,对检索结果综合分析并进行新颖性判断的一项活动,本文将科技查新过程中的信息处理方式从传统的信息检索转化为相关性判断,结合科技查新的数据特征,提出基于条件随机场的相关文档探测方法,在此过程中,除了传统的文本相似度以外,本文将共现词汇及其数量、同义词近义词、词汇主题聚类、词向量词典等特征纳入条件随机场模型,来研究探索预测相关文献的各个影响因素及其特征权重。
  最后,通过本文的实验发现,本文提出的相关文档探测方法取得了较好的效果,与查新员的对比实验中有明显的优势;同时在相关文献判断时,发现专业化程度较高的术语其作用愈发重要,相反传统的文本相似度,在该过程中贡献度居中,这也启发我们一是纳入更多领域知识,二是集成其他类型信息,比如引文信息、分类信息,来提升自动化科技查新效果。
其他文献
腺梗(豕希)莶(Siegesbeckia pubescens Makino)为菊科(豕希)莶草属植物,与(豕希)(Siegesbeckia orientalis L.)、毛梗(豕希)莶(Siegesbeckia glabrescens Makino)同科同属,干燥地上部分入药.年近来随着国内外学者对(豕希)莶草研究的不断深入,提供了一定的科学用药依据.为进一步探求其化学成分及生物活性,我们在综述腺
该文的目的就是进一步探讨α--受体激动剂对心内皮功能的影响及心内皮对α--受体激动剂心肌正性肌力作用的调控.该文包括机能,细胞和分子三个层次的研究.结果表明:1.心内皮对α--受体激动剂的心肌正性肌力作用具有明显的调控作用,在一定浓度范围内(〈1μmol·L),α --受体激动剂的心肌正性肌力作用是心内皮依赖性的,是由心内皮细胞的α--受体介导的,PKC的激活和这种正性肌力作用有关,提示在病理情况
该文采用基因工程技术,构建了两个分别表达绿脓杆菌外毒素PE(Pseudomonas Exotoxin)片段PE和重组毒素IL-Z-PE融合蛋白的表达载体.首先,采用PCR技术,从绿脓杆菌标准株PA103的基因组DNA(genome DNA)中扩增得到PEDNA片段,从质粒PTLIL-2上扩增得到IL-2 cDNA片段(不包含信号肽序列),然后将这两个片段分别插入质粒PUC19的多克隆位点(MCS)
学位
科技评价是科学交流活动的不可或缺部分,其结果不仅关系到个人的直接利益,也间接影响发文期刊、发文机构等间接利益相关者的声誉归属。随着科学交流环境的改变,Altmetrics评价于2010年应运而生。但中文学术成果Altmetrics评价在方法、工具及数据来源等方面还存在诸多缺失,因而识别中文学术成果Altmetrics评价的利益相关者需求并探索其需求达成,不仅有助于创建出新的科技评价体系,而且对于完
学位
入口词是叙词表术语中重要的组成部分,入口词翻译对多语种叙词表的编制与词表间的互操作具有重要的应用价值。论文对比分析各国标准中对入口词、多语种叙词表以及优选词的相关定义,为入口词翻译研究提供理论基础,研究入口词及优选词的具体应用,为研究入口词翻译提供应用基础。总结科技术语、缩略语、特色词汇翻译的研究现状,为入口词翻译提供方法理论支持。论文结合英文叙词表中入口词的特点,从入口词类型、英汉表达方式、同形
学位
随着科学研究活动的日益发展,数字图书馆及其相关来源所包含的学术资源体量越来越庞大,学者特征愈发分散而复杂,学者姓名消歧、学者识别成为亟待解决的问题。为揭示数字图书馆及相关资源中所包含的学者学术属性,实现学术成果的集成与应用,提升数字图书馆资源建设与特色服务,本文基于数字图书馆及相关资源,研究学者标签体系构建方式,为数字图书馆的学术画像构建和学术资源的描述提供理论模型和实践方法。  在理论研究方面,
新媒体平台的本质是社交媒体,依托于网络,对象是广大网民,兼具发布功能,因而在一定程度上与新闻媒体有相似之处。两者都能对社会热点问题做出及时反馈。但微信公众号学术资源较为分散,且质量参差不齐。集中揭示质量较高的学术信息资源,不仅有助于拓展信息资源建设内涵,更可以利用知识组织相关方法和工具对其中富含的知识单元进行识别和计算,为后续开展学术热门话题识别与跟踪服务、个性化学术信息推荐服务等打下基础,以进一
标准体系是一定范围内的标准,根据其内在联系形成的科学有机整体,它是编制标准和修订计划的依据。标准体系包含了宏观标准体系和微观标准体系两种,其中宏观标准体系是指某领域所有标准构建的体系结构,微观标准体系是指某个标准的体系结构。无论是宏观标准体系还是微观标准体系,若要进行标准体系构建,标准工作者就需要从海量资源汇中提炼出大量的概念、关系、结构,需要耗费大量的人力、物力。为解决这一问题,本文提出了一种基
学位
在知识经济时代,高层次科技人才是经济发展的巨大驱动力。吸引集聚高层次科技人才是发挥其科技创新能力的前提保障。因此,研究创新型城市中高层次科技人才的集聚规律和特征以及剖析高层次人才聚集过程中的规模数量、人才类型、学科背景、来源地与创新型城市发展的关系一方面可以更好地激发高层次人才的最大潜力、发挥人才集聚效应,另一方面可以为城市引进人才提供方向参考,提高引才成功概率。  本论文以城市为单元研究高层次科
学位
近年来,随着社会经济的发展和国家对科研活动投入的加强,我国科技整体水平持续提升。但伴随着科技事业的迅速发展,科研活动中的科研不端行为屡有发生,其中主要出现在以高等院校与科研院所为主的科研机构中,严重影响了我国科技事业的发展进程。此时,我国正加快推进世界顶尖科研机构的建设,科研诚信作为创建顶尖科研机构的重要保障,对我国科研机构的发展至关重要。因此,有效衡量科研机构的科研诚信建设化水平,进一步加强科研
学位