基于科技文献的领域知识抽取研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jacykeaichenai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在第四范式科研模式下,对科学数据这类已有科研成果的分析和利用,成为实现科技创新的重要途径。在科研大数据的背景下,科研人员对领域知识点的需求也在不断增强。人工智能的发展也是建立在对人类已有知识的学习、利用再创新基础之上。而领域知识图谱是揭示某一领域知识的语义网络,它能够有效支持科研创新、知识点获取和知识推理等。
  本文从科研人员的领域知识点需求出发,通过领域知识图谱的构建,获取领域知识点,满足科研人员需求。具体而言,本文从蓝细菌领域的知识点需求出发,设计了知识图谱逻辑层,提出了面向科技文献全文内容的领域知识抽取方法,提供了知识融合与存储的解决方案,构建了蓝细菌领域知识图谱,并从中自动获取了领域知识点。本文的重点及难点是探究从科技文献中抽取领域知识的技术解决方案。从科技文献中抽取领域知识具有两大特点,首先,科技文献中的知识是经领域专家评审确认过的内容,可信度与权威性高;其次,领域知识抽取是为满足领域需求服务的,因此领域知识抽取需深入调研和分析科研人员的知识点需求。
  已有的知识抽取多基于科技文献摘要,但科技文献内容中的知识更加丰富。与此同时,从科技文献内容中抽取知识难度更大。首先,由于其语义信息更丰富,数据标注更加困难,没有一定量的标注数据,就无法很好地应用目前在信息抽取领域效果较好的深度学习方法;其次,相比摘要文本,科技文献内容中的知识密度小,会存在大量的噪声文本;最后,相比摘要文本中的知识,科技文献内容中的知识更多元,更复杂,这意味着诸如模式学习等简单的方法难以达到较好的效果。
  针对领域文献中的知识抽取特点,论文提出基于多策略融合的知识抽取方法。本论文提出了Pat-Crf和Pat-Bilstm_crf的实体识别模型,该方法将模式学习与条件随机场和长短时记忆神经网络相结合,该方法能迭代生成一定量的可信标注数据,能学习到实体上下文更深层的语义信息,能考虑到各个实体类型之间的相互影响。在关系抽取方面,本文提出了Pat-CNN的关系抽取模型,将模式学习与卷积神经网络相结合,模型的输入是实体识别的结果,输出的是领域知识。与通常的模式学习不同,关系模式学习具有其特殊性,它不直接匹配关系,而是匹配关系的左实体上文、左实体与右实体的中间文本、右实体的下文,这样的关系上下文规模较大,很难进行精确字面匹配;其次,关系上下文描述会有无限多种,而对应的关系则是有限的。基于这两点,本文使用TF-IDF将文本表示为向量,采用了更加泛化的模式表示。
  基于上述技术思路,论文选择Python、Tensorflow作实验框架,蓝细菌领域的科技文献作实验数据,实现了领域知识抽取实验系统,通过不同方法的准确率和召回率进行对比分析,验证了方案的可行性和有效性。最后,将上述方法抽取的知识进行简单融合,选择NEO4J图数据库进行存储,构建了蓝细菌领域知识图谱,满足了科研人员的领域知识点需求,达到了本文的预期目标。
其他文献
在数字化发展的大环境下,移动互联网、社交媒体、虚拟现实、互动体验、人工智能、大数据及数据可视化等更加广泛和深入地对科学传播模式产生影响。智能互动式展览契合了新媒体环境下科学博物馆的阶段性变化,创新了科学传播方式,增强了对公众的吸引力,但因受各种限制因素的影响,普及度不高,需要让公众更加理解和认识科学博物馆智能互动式展览。本文从用户对科学博物馆智能互动式展览的接受意愿研究出发,意在研究影响用户使用智
科研人员是构成科学研究队伍的基本单位。而随着计算机技术、互联网以及社交媒体的快速发展,学术领域内科研人员的合作与交流也日益频繁,进而产生了论文引文网络、作者引用网络以及作者合作网络等复杂网络。挖掘学术领域中科研人员的社区结构及主题分布,有助于把握特定领域的发展脉络及学科态势,促进科技创新合作。因此,复杂网络中社区发现方法的相关研究在国际科技创新合作的背景下备受关注。  早期学术领域的社区发现方法以
学位
开放科研数据是开放科学背景下,推动科技和社会创新的重要发展条件,受到多方利益相关者的高度重视和积极拓展。科研人员处于开放科研数据实践的关键位置,他们是数据收集、整理、分析、存储和共享的主体。当前,开放科研数据面临着科研人员参与度不高的挑战。如何激励科研人员,将开放科研数据转变为融入科研人员日常科研活动的行为规范,这在讨论相关政策的发展和科研数据管理创新服务时仍有研究的空间。  目前,国内外已有许多
学位
随着信息技术的发展,信息呈现爆炸式增长,信息素质已经成为信息社会公民的一项基本能力。高等教育人才培养目标的变化、“互联网+教育”的驱动,都要求信息素质教育融入新型教学理念和教学技术,创新教学内容和教学形式,提高教学效果。  翻转课堂作为一项新型教学技术,在对学生批判性思维能力、语言表达能力、合作学习能力、创新能力等综合能力的培养,提高学生学习兴趣和主动性,提升教学效果和教学质量等方面作用突出。而且
学位
当前中国正处于全面建成小康社会的决胜阶段,新型城镇化发展遭遇瓶颈。通过培育特色小镇,振兴小城镇经济,提高人民收入和生活水平,能够破解城乡二元化结构,同时推进区域协调发展以及乡村振兴;迈入“十三五”后,中国经济进入从高速增长转为中高速增长的新常态阶段,只有通过产业转型升级才能实现创新发展,特色小镇通过创新创业,使旧有的城镇存量重新散发活力,形成了新产业、新态势,是产业转型升级与发展的新路径。然而,目
学位
本研究以特色科学文化资源为研究对象,以院士信息资源建设为研究主体,以“国内外特色科学文化资源研究综述——调研国内外代表性机构院士信息建设案例,总结院士信息资源建设通用模式——对比国内外代表性机构院士信息建设案例各自优劣势,总结院士信息资源建设优化模式——中国科学院院士文库建设研究及SWOT分析,总结完善院士文库建设的策略——提出对中国图书馆特色科学文化资源可持续建设的建议”为研究主线,将理论与实践
学位
目前科技论文资源的十分巨大,难以处理,如何对海量数据进行分析、挖掘以及有效组织成为了一个难题。识别论文中并列关系知识单元,即对全文中在结构上或内容上呈并列关系的文本以及其描述的知识种类进行识别抽取,不仅能实现科技论文的重点概要预览,同时也可以实现文中核心知识内容的有效组织,为知识组织、知识抽取等工作提供可靠的数据基础。  本研究以科技论文为研究对象,目标是识别并提取单文档中的核心知识内容,利用文本
学位
信息化社会知识爆炸式增长造成了严重的知识分散问题,对决策的效率效果造成了极大影响。知识晶炼理论及其应用可以将分散的知识进行集中,可极大提高和改善决策效率效果。  本文梳理了国内外知识晶炼理论的演化发展,并通过冰山双循环模型的启发,从物理原理这个源头出发结合工作生活事例,探索提出知识晶炼双循环理论。通过对冰山模型的发展分析,原始的冰山模型被引申为胜任力模型等,本文将原始冰山模型进一步细分出正冰山模型
学位
随着大数据时代的到来,科学研究的模式和方法也在不断创新和发展,数据驱动开始成为科研领域重要的研究范式。科技文献作为科研成果发布的重要形式,海量的信息、数据、知识隐藏于科技文献中,面对从大量科技文献中发现有用的信息、知识和数据的挑战,迫切需要自动化的工具和方法帮助人们从文献中快速、准确的获取真正需要的信息;同时,随着众多学科领域综合集成研究方法的应用,基于大量文献中数据和数值信息的综合集成研究不断深
学位
信息技术的日益发展使得包括人文与社会科学领域在内的各个学科的研究资料逐渐被数字化,大量数据库与相关平台得以构建与运营,这极大地方便了研究者从网络上获取研究资料并开展研究,人文学科研究者采用技术手法从大规模的文献资料中发现新的研究问题并取得研究成果,人文学科有向数字人文发展的趋势。在数字学术环境中,人文学者利用数字资源开展研究,图书馆与信息专业人员对数字资源进行分类和组织,对知识进行描述、揭示、存储