科技文献资源空间的自动构造与应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:cqnc4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
资源空间模型是面向网络资源的语义数据模型,基于资源的分类语义对资源进行组织和管理。科技文献资源空间是资源空间模型组织、管理海量科技文献资源的应用实例,构造科技文献资源空间需要依据领域知识提取构造学科分类体系或概念体系从而对资源进行分类。由于人工构造工作量大,并且容易受到设计者个人知识水平等因素的影响,因此本文研究科技文献资源空间的自动构造方法,从而解决科技文献资源空间的自动构造问题。  根据科技文献资源的特点,本文将科技文献资源的属性划分为外在属性和内在属性:外在属性基于科技文档元数据提供宏观粗粒度的语义描述,例如时间、作者、刊物、主题类别等;内在属性基于科技文档内容提供微观细粒度的语义描述,例如问题、方法、数据集等。将资源的外在属性与内在属性相结合能够提供科技文档全面的语义描述。因此,本文分别从基于资源外在属性的宏观维度和基于内在属性的微观维度两个方面来自动构造科技文献资源空间,提供资源浏览、检索、摘要等相关应用服务。  本文主要解决了科技文献资源空间自动构造的两个主要问题:  宏观维度分类体系的自动调整。科技文献资源空间的宏观维度分类体系需要随着资源的不断更新进行动态地调整,从而适应资源的动态组织管理需求。本文提出了基于资源的层次聚类对现有分类体系进行动态调整的算法,并且在Reuters-21578、20Newsgroups、DMOZ以及ScienceDirect科学论文集上验证了该方法的有效性。  微观维度概念体系的自动构造。本文基于SemEval2017(Task10)定义的科技文档三要素实体(任务、过程、材料)以及实体间关系(同义词关系、上下位关系)构建科技文献资源空间的微观维度概念体系。本文提出了基于深度神经网络的实体/关系联合抽取模型,从科技文档中自动提取三要素实体及实体间关系,并且在SemEval2017(Task10)的科学论文数据集上验证了该模型的有效性。  基于以上研究,本文实现了面向科技文献的资源空间的原型系统,验证了自动构造方法的有效性,为用户提供科技文献资源的查询、浏览和摘要服务。在原型系统的基础上,本文设计了基于科技文献资源空间的科技文档比较式摘要应用,体现了微观维度在科技文献资源空间中的重要作用。本文提出了基于差异主题模型的比较式摘要算法,创建了相应数据集并在该数据集上验证了算法的有效性。
其他文献
近年来,随着网络应用的快速发展,大型的分布式环境下的网络应用需求增加。而在分布式环境下出现的访问控制和授权管理问题作为网络安全服务的一个重要研究领域得到了众多学者的
信息技术投资是20世纪90年代企业界和学术界最热门的话题之一。许多大型跨国企业都把对信息技术的投入放在企业的战略位置上。经济学家认为,企业对信息技术的巨额投入必将对全
工作流时间管理是工作流领域的重要研究内容。开展工作流时间管理的研究,对于增强工作流管理系统的柔性、提高工作流各活动执行实体的协作效率、确保工作流计划的高效执行、提
数据挖掘是一种比传统的数据分析技术更加复杂的分析和建模方法,目的是发现数据中隐藏的规则和有用的知识。经过这些年的发展,数据挖掘已经逐渐从集中数据集的挖掘发展到多方
数据仓库是市场激烈竞争的产物,它将大量用于事务处理的数据库数据进行清理、抽取和转换,并按照决策主题的需要重新进行组织,以达到有效决策支持的目标。 数据仓库是多个分布
学位
随着国家科技基础条件平台的建设,各项科技资源不断丰富。科技工作者如何有效地使用这些资源,是网络科技环境必须解决的问题,也是资源整合与共享的关键。在使用资源的同时,科研人
随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务
随着市场经济的飞速发展,税务在社会经济中的作用越来越重要,如何提高税收工作的效率,降低税收成本,更好地服务于广大纳税人,成为税收工作的关键。税务信息化正是在这种背景下应运
World Wide Web是一个庞大和重要的信息来源,而且其规模还在飞速增长。随着Internet技术的普及和应用,人们越来越依赖Web以获取信息。 现有的Web网页大部分是以HTML进行编码