科技文献中学术图表语义增强标注研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wt920997920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学术图表大量存在于科技文献中。相关研究统计发现,学术图表正成为STEM科学期刊论文标配内容,重要的科学研究结果大多借助图表解释说明。学术图表被作者用于体现不同的用途如多维指标对比,复杂对象论证,特殊对象展示,直观实验展示,对比/趋势/统计数据分析等,助力读者直观理解论文,提供比正常摘要更多的信息内容。另一方面,读者通过阅读查看文献内学术图表评估文档的相关性,并借助图表信息来提高检索效率。同时,部分学术图表和学术研究中产生的科学数据同源,甚至是科学数据精华所在,因而学术图表成为科技文献和科学数据间关联纽带。总之,提供给定信息快速发现相关学术图表成为越来越重要的科研需求。
  对现有国内外图表发现研究与实践调研基础上,本研究认为表现类型多样化、信息内容高度浓缩、与科学文献内容高度相关的学术图表难以融入当前学术知识发现体系的主要原因是缺乏对学术图表进行语义化、形式化、细粒度、多维度、可关联的语义增强标注。基于此假设提出本研究的主要研究问题:(1)如何构建一个内容完整、关系清晰、知识可扩展、动态进化、机器可理解的学术图表语义表示模型(2)语义表示模型如何应用于学术图表语义增强标注,需要解决哪些瓶颈技术问题(3)基于学术图表语义增强标注构建的学术图表发现平台是否能满足图表精准发现需要。
  论文针对上述研究问题开展以下几方面的研究:
  (1)学术图表发现历史研究
  基于历史研究梳理学术图表发现的不同发展阶段,对比不同阶段图表发现研究与实践特点及路径,指出学术图表发现需要解决两个核心问题:图表信息组织模型和图表标注。
  (2)学术图表本体构建研究
  本文深入调研并对比现有学术图表信息组织模型,研究不同组织方式下的图表标注实践,指出通过本体方式对学术图表实施语义增强组织更适应未来发展趋势。研究相关本体构建理论,选择确定本研究中的本体构建方法、流程及工具。分析学术图表的内容及形式特征,提出学术图表发现场景,明确学术图表语义信息来源内容,通过本体复用、本体类定义、属性定义、实例定义等过程,构建AFAT本体。基于人工标注实验,对AFAT本体实施进化。
  研究表明,AFAT本体能够解决学术图表多模态、信息复合、关联复杂带来的知识组织问题,为下一步学术图表语义增强标注提供语义组织框架。
  (3)基于AFAT本体的学术图表语义增强标注研究
  从人工标注及自动标注两方面,分别研究AFAT本体如何应用于学术图表语义增强标注过程。对PMC数据库中水稻领域132篇论文中的1006个学术图表实施人工语义增强标注,并分析标注结果以验证AFAT本体的标注效果。结合相关文献研究与人工标注实验经验,明确学术图表自动语义增强标注流程的三个步骤,分别是图表定位及抽取、图表信息抽取、图表语义实例标注。区分两种主流学术文献格式(PDF、XML)中学术图表自动语义增强标注的相关技术点。在XML格式论文中实验基于AFAT本体的学术图表自动信息抽取、基于规则的语义增强标注及基于BERT模型机器学习的语义增强标注。
  学术图表人工语义增强标注证明了AFAT本体并表示学术图表信息的有效性,学术图表自动语义增强标注验证了AFAT本体在大规模学术图表语义增强标注中的适用性,同时证明基于AFAT本体的学术图表自动语义增强标注技术是可行的。
  (4)基于AFAT本体的学术图表语义增强标注应用研究
  确定学术图表语义增强标注的应用框架,研究应用框架中学术图表RDF知识库构建流程--RDF转换、存储、索引、查询,并在人工标注数据集中实践。以水稻领域为例,构建本体驱动的学术图表知识发现实验性平台,并从资源揭示、语义关联发现、系统架构等方面与现有元数据标注及元数据标注混合叙词表语义标注的学术图表发现平台对比。基于AFAT本体的学术图表语义增强标注应用研究表明,AFAT本体驱动的学术图表知识发现实验性平台能够深度揭示学术图表的多模态信息及富关联对象,验证了AFAT本体的语义增强表示能力,同时验证了学术图表语义增强标注用于学术图表发现的可行性及有效性。
其他文献
复杂网络能够将真实世界中广泛存在的复杂系统用网络的形式表示出来,例如社交网络、生物网络、交通网络等。对该领域的研究,不仅吸引了大量来自管理科学、计算机科学和物理学等领域科研人员的广泛关注,也引起了社会学、生物学等学科学者们极大的研究兴趣,复杂网络研究已经成为一个重要的多学科交叉研究热点领域。同时,由于大数据技术的迅速发展,获取和深入挖掘网络数据成为可能。大量的研究表明,复杂网络中存在社团结构,具有
学位
该文从分析秦皇岛发电有限责任公司所面临的竞争环境入手,在这部分里,着重分析了中国电力工业改革以及未来十年规划和京津唐地区未来十年电力需求趋势以及京津唐电网内主要竞争对手的发展动态.接着从历史和现实的角度分析了秦皇岛发电有限责任公司的竞争能力和存在的问题,在这部分里,着重分析了公司的资金运作能力和安全生产运作经验以及多种经营方面的教训.最后提出了公司未来十年发展战略和经营战略的保障措施,其中战略目标
学位
进入20世纪90年代以来,传统管理模式在企业管理中已暴露出种种弊端,应运而生的供应链管理逐渐成为企业增强竞争力的重要途径.建立供应链战略性合作伙伴关系是供应链管理的重点,也是集成化供应链管理的核心.该文对如何选择供应链合作伙伴进行研究,以帮助企业更好地实施供应链管理.
学位
中国国有企业改革实际上就是国有企业治理改革和管理改革,建立现代企业制度就是建立健全规范的公司治理结构和科学的管理机制;指出规范公司治理结构是中国国有企业改革中亟需解决的问题,因此,研究公司治理问题即具有理论意义,又具有重要的现实意义.公司治理(corporate governance)问题,一直是中外专家学者,政府政策制定者以及企业家致力寻求最佳答案的重点和热点,公司治理是一个多角度多层次的概念,
学位
学位
学位
学位
学位
全球化、科技创新和市场竞争促进了智能发展与零售业的整合。这项研究增强了消费者的购物体验,促进了市场增长趋势。该研究旨在调查土耳其的智能零售发展实践,以及该国零售组织可以采取的改进措施,以发展其零售业务和营销流程。为此,在理论框架和智能零售实践的新趋势下评估智能发展、改进措施和零售运营的核心概念。他们的研究应用了积极的研究理念,致力于方法和描述性设计的定量研究范式。调查作为研究战略已经有效地解决了S
学位
随着新冠肺炎疫情在全球范围的进一步扩大,疫情信息量不断增加,信息发布渠道日益多样化,信息量的增长速度也要快得多。如何快速有效地从过多、低效的信息中获取有用的信息,已成为老年人面临的一个重要问题。因此,本文研究了城市老年人信息行为的特征及其影响因素。分析了老年人信息贫困的主要表现形式和成因,结合老年人的特点,提出了相应的解决对策。  本文采用参与式观察和深度访谈等定性研究方法,对20名城市老年人进行