中文专利知识图谱构建研究

来源 :北京信息科技大学 | 被引量 : 1次 | 上传用户:kcb2639
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利是一种发明创造也是一种知识产权并且受到法律的保护,包含了大量的科技成果和创新技术。对已有专利中包含的知识资源进行深层次的挖掘和分析,是科技创新的前提。本文拟通过构建新能源汽车领域的专利知识图谱来实现对该领域专利知识的表示、分析以及挖掘,从而更加有效的分析专利之间的联系,优化专利的检索。知识图谱是通过符号的形式来描述物理世界中的概念及其概念之间的关系,是结构化的语义知识库,不仅能以更接近人类认知的方式表达海量信息,而且为海量信息提供了更好的组织和管理形式。知识图谱是由实体-关系-实体三元组,以及实体及其相关属性-值对组成,构成网状的知识结构。在构建新能源汽车领域专利知识图谱的过程中,本文重点研究了专利术语抽取方法、专利术语关系抽取方法以及专利属性值抽取方法。主要内容可以概括为以下几个方面:提出了基于多特征融合及BiLSTM-CRF模型的专利术语抽取方法。为提高中文专利领域术语抽取结果的准确率和召回率,从深度学习的角度出发,并选取词性和依存关系作为特征,提出一种基于多特征融合及双向长短时记忆网络(BiLSTM)与条件随机场(CRF)相结合的专利领域术语抽取模型(BiLSTM-CRF),在词性和依存关系两个显性特征的基础上,使用双层双向LSTM神经网络挖掘专利数据中的语义信息及其时序信息,解决了传统方法中存在的通用性不强以及无法捕捉上下文中隐含信息的缺点,同时又能够通过CRF层考虑输出标签之间前后的依赖关系。实验结果表明,该深度学习方法在领域术语抽取方面是行之有效的,并获得89.79%的准确率和85.35%的召回率。提出了一种基于注意力机制的BiLSTM和关键词策略的专利术语关系抽取方法。在专利文本信息向量化中加入通过改进的关键词抽取算法(TextRank)获得的每个句子中的类别关键词特征,然后使用BiLSTM神经网络及注意力机制挖掘数据中的时序信息以及句子级别的整体特征信息,同时使用池化层获得文本的局部特征,最后将得到的文本信息的整体特征和局部特征进行融合,并通过分类器输出最终的分类结果。类别关键词的加入提高了类别的区分度。实验结果表明,该深度学习方法在专利术语关系抽取方面是行之有效的,并获得90.85%的准确率和90.64%的召回率。提出了一种基于BERT-BiGRU-CRF模型的专利属性值抽取方法,该方法首先使用BERT模型将专利文本按字训练成为低维向量矩阵,由BiGRU模型结合数据中的时序信息以及语义信息计算出属于每个标签的概率,最后由条件随机场CRF根据标签之间的前后依赖关系求解出最优的标签序列。通过反向传播算法对模型进行优化,辅以Dropout使模型更加健壮。实验结果表明,BERT-BiGRU-CRF模型在专利属性值抽取方面是行之有效的,并获得85.09%的准确率和80.03%的召回率。
其他文献
机器人技术,尤其是移动机器人技术,已经开始在工业制造、军事、物流和室内服务领域得到越来越广泛的应用。在移动机器人的关键技术中,即时定位与地图构建SLAM(Simultaneous Localization and Mapping)和多传感器信息的融合至关重要,是移动机器人实现精确自主导航的基础。本文以Turtlebot2移动机器人为平台,配置了里程计和二维激光雷达等感知设备。首先对系统的运动模型和
随着计算机技术的快速发展,人们在努力使机器变得更加人性化,因此,本文研究如何让机器智能地生成有说服力的自然语言描述的问题,该描述既要传达产品信息,又要提供与用户需求相关的解释。这个问题可能会受益于当前大量关于端到端深度神经网络的研究工作。然而,深度神经网络的成功归功于海量训练数据的支撑,我们无法获取大规模的具有说服力的文本描述,因此,缺乏标记数据和主观判断对训练这样一个模型提出了严峻挑战。针对以上
国防工业、航空航天、汽车制造、半导体和微电子工业等领域发展迅速,超精密加工零件的数量和质量需求都急剧增长,尤其是对零件表面面形精度和粗糙度的要求与日俱增。相应地,
作为人脸识别、表情分析、人脸3D重构等重要任务的基础,人脸特征点定位课题受到了研究者的广泛关注并取得了巨大的进展,其中级联姿态回归算法在受控条件(例如,光照良好、无遮
在机器人领域中,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人研究领域的热点与难点问题,引起了许多研究者的关注。本文在研究国内外SLAM算法的基础上,对SLAM算法进行了深入的分析和研究,并对算法中所存在的不足作出了一定改进,提高了机器人定位和地图构建的估计精度及执行效率。具体的研究内容如下:首先,阐述了SLAM问题的基本模型并对
益贫式增长问题的核心在于研究增长及分配的减贫机制,同时促使贫困群体参与增长过程并共享发展成果,其最终的立足点是减贫政策。本文从益贫式增长的内涵和测度方法出发,从全国和省域层面对2005-2016年城镇益贫式增长的现状及时空分异特征进行综合测评。从理论层面上探究了收入分配政策(初次分配、再分配)、区位政策、经济增长、地方投入产出和人力资源禀赋对益贫式增长影响的分析框架,并运用面板数据模型进行实证检验
本研究以科尔沁沙地为研究区域,榆树疏林为研究对象,采用多智能体思想,以NetLogo为平台,以内蒙古乌兰敖都试验站的野外观测数据作为模型准确性验证的依据,实现榆树空间格局形成过程以及其动态变化的模拟,探究榆树空间格局形成过程中风力、植被盖度、土壤含水量、竞争等影响条件对榆树疏林的影响。主要研究结果如下:(1)风力驱动是影响种子扩散的重要影响因素,种子扩散数量在各个方向上呈现先增加后减小的单峰分布的
时间序列数据的挖掘是一个重要且成熟的研究主题,解决了很多现实问题。多变量时间序列(MTS)在众多领域应用广泛,如何对MTS准确高效地进行聚类已经成为一个热门的研究课题。相
意识形态是能够反映一定阶级社会关系,以维护某一社会阶级利益为目的思想体系,其包括政治、经济、文化、法律、道德、哲学、宗教、艺术等。国家的安定,需要意识形态的统一,政党的统治稳定,更需要有稳定的意识形态做保障,稳定的意识形态也有利于为经济社会发展营造良好的社会氛围,为社会成员形成良好的社会心理打下坚实的基础。改革开放以来,随着中国和外国思想文化的交流,中国的意识形态受到了一些外在因素的影响,出现了一
视觉里程计(Visual Odometry,VO)是基于视觉的同时定位与地图构建(viusal Simultaneous Location and Mapping,vSLAM)系统中的一个极具挑战的开放性问题。其主要任务是依据视