科技论文中并列关系知识单元识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:helen_fu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前科技论文资源的十分巨大,难以处理,如何对海量数据进行分析、挖掘以及有效组织成为了一个难题。识别论文中并列关系知识单元,即对全文中在结构上或内容上呈并列关系的文本以及其描述的知识种类进行识别抽取,不仅能实现科技论文的重点概要预览,同时也可以实现文中核心知识内容的有效组织,为知识组织、知识抽取等工作提供可靠的数据基础。
  本研究以科技论文为研究对象,目标是识别并提取单文档中的核心知识内容,利用文本多粒度的表示向量,优化改进CNN分类模型的输入,并针对数据量少的文本分类任务,以半监督自学习的方法完善训练过程,之后基于信息抽取的关键技术,以改进的模板匹配的方法实现了并列关系文本的知识种类的有效识别,较传统方法效果有所提升。具体而言,主要进行了以下工作:
  (1)详细调研、充分分析了并列关系文本识别的研究进展和现有方法,同时对本文所需要的文本相关的方法进行了分析,包括不同粒度的文本表示、文本分类以及信息抽取技术;对科技论文中并列关系文本块的特征进行分析,并归纳为字符、词、词性、样式四个粒度的特征;对各个粒度的特征的表示方法进行了简单分析介绍。
  (2)在不同粒度文本特征的基础上,对于标注数据量充足的篇章级并列关系文本块,采用CNN多分类模型,同时进行分类实验;对于标注数据较少,且有大量未标注数据的段内并列关系文本块,采用半监督自训练方法优化CNN二分类模型的训练过程;并针对实验结果总结了可取和不足之处、提出了可能的改进方案。
  (3)根据分类的结果,采用规则的方法找出文本块的知识描述文本并分类,利用信息抽取中的关键技术,如三元组抽取、模板匹配等,对所有类型的描述文本进行实体关系抽取。并将并列关系知识单元定义为实体-关系-并列文本块的结构,使用全文数据进行了实验,对实验结果进行了分析、总结,提出改进方法。
  本文提出的并列关系文本分类方法在篇章级和句子级均取得了优于传统的分类方法的准确率,在得到并列关系文本块的基础上识别其知识种类,最终得到论文的所有并列关系知识单元。
其他文献
学科馆员是图书馆服务发展到一定阶段产生的提供个性化、知识化、专业化服务的人员。学科服务是图书馆服务的浓缩、是图书馆服务的窗口,可以说学科馆员未来怎样发展很大程度上决定图书馆未来存亡与发展方向。新型学术交流模式下,用户的科研环境、教学环境、学习环境、交流环境乃至生活环境都发生了巨大变化,科研模式、科研工具、教学内容与工具等都发生了变革,这些变革带来用户需求变化。以用户需求为出发点和目标的学科服务必然
学位
在开放科学、数据密集型环境的驱动下,科学数据不再仅仅是原有实验的研究对象,也逐渐变为一种学术资源。新型的、数量急剧增长的科学数据资源,要如何进行使用与评价,是人们亟需解决的一个问题。为此,科学数据平台建设、科研评价等领域都不断进行着理论研究及实践工作,但针对通过科学数据本身建立的、有效且定量评价指标较少。中国在大力建立国家科学数据基础条件平台的过程中,也缺乏着有效的科学数据评价指标,尤其是缺乏科学
学位
在新的信息数字化和全媒体时代下,图书馆面临着用户需求、信息行为多样化以及新技术冲击带来的挑战。借助营销服务宗旨、理念和方式,结合图书馆业务流程和用户服务特点,探寻用户需求、构建用户关系、推广服务活动、扩大服务影响,以及创造服务新的增长点等营销内容开展研究和实践,已成为图书馆界提升服务质量、自身价值和影响力,进一步推动图书馆服务创新发展的热点研究课题之一。因此,本研究工作将从以下五个方面开展:  (
学位
随着计算机和信息技术全面融入社会生活,信息的发布、传播、获取途径变得多种多样,世界上充斥着比以往更多的信息,使得大数据技术和机器学习技术快速发展,也为开放科学创造了良好条件。面对开放科学环境中共享的海量科研信息,科研人员的需求也从广泛获取转为个性选择。为了向研究员提供高质量检索结果,以及精准、个性化的智能知识服务,各信息服务机构将知识图谱技术应用于大规模、异质多元、组织结构松散的科技大数据,构建学
在数字化发展的大环境下,移动互联网、社交媒体、虚拟现实、互动体验、人工智能、大数据及数据可视化等更加广泛和深入地对科学传播模式产生影响。智能互动式展览契合了新媒体环境下科学博物馆的阶段性变化,创新了科学传播方式,增强了对公众的吸引力,但因受各种限制因素的影响,普及度不高,需要让公众更加理解和认识科学博物馆智能互动式展览。本文从用户对科学博物馆智能互动式展览的接受意愿研究出发,意在研究影响用户使用智
科研人员是构成科学研究队伍的基本单位。而随着计算机技术、互联网以及社交媒体的快速发展,学术领域内科研人员的合作与交流也日益频繁,进而产生了论文引文网络、作者引用网络以及作者合作网络等复杂网络。挖掘学术领域中科研人员的社区结构及主题分布,有助于把握特定领域的发展脉络及学科态势,促进科技创新合作。因此,复杂网络中社区发现方法的相关研究在国际科技创新合作的背景下备受关注。  早期学术领域的社区发现方法以
学位
开放科研数据是开放科学背景下,推动科技和社会创新的重要发展条件,受到多方利益相关者的高度重视和积极拓展。科研人员处于开放科研数据实践的关键位置,他们是数据收集、整理、分析、存储和共享的主体。当前,开放科研数据面临着科研人员参与度不高的挑战。如何激励科研人员,将开放科研数据转变为融入科研人员日常科研活动的行为规范,这在讨论相关政策的发展和科研数据管理创新服务时仍有研究的空间。  目前,国内外已有许多
学位
随着信息技术的发展,信息呈现爆炸式增长,信息素质已经成为信息社会公民的一项基本能力。高等教育人才培养目标的变化、“互联网+教育”的驱动,都要求信息素质教育融入新型教学理念和教学技术,创新教学内容和教学形式,提高教学效果。  翻转课堂作为一项新型教学技术,在对学生批判性思维能力、语言表达能力、合作学习能力、创新能力等综合能力的培养,提高学生学习兴趣和主动性,提升教学效果和教学质量等方面作用突出。而且
学位
当前中国正处于全面建成小康社会的决胜阶段,新型城镇化发展遭遇瓶颈。通过培育特色小镇,振兴小城镇经济,提高人民收入和生活水平,能够破解城乡二元化结构,同时推进区域协调发展以及乡村振兴;迈入“十三五”后,中国经济进入从高速增长转为中高速增长的新常态阶段,只有通过产业转型升级才能实现创新发展,特色小镇通过创新创业,使旧有的城镇存量重新散发活力,形成了新产业、新态势,是产业转型升级与发展的新路径。然而,目
学位
本研究以特色科学文化资源为研究对象,以院士信息资源建设为研究主体,以“国内外特色科学文化资源研究综述——调研国内外代表性机构院士信息建设案例,总结院士信息资源建设通用模式——对比国内外代表性机构院士信息建设案例各自优劣势,总结院士信息资源建设优化模式——中国科学院院士文库建设研究及SWOT分析,总结完善院士文库建设的策略——提出对中国图书馆特色科学文化资源可持续建设的建议”为研究主线,将理论与实践
学位