面向专利结构化与非结构化数据的核心专利识别模型研究

来源 :厦门理工学院 | 被引量 : 0次 | 上传用户:guoxxjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术发展越来越快,技术的创新难度与日俱增,想要在某领域实现快速高效的技术创新,首先要掌握该领域的核心和关键技术,而核心专利往往代表其所属技术领域的核心和关键技术,对某领域的核心专利进行识别有助于挖掘该领域的核心技术信息,是实现技术创新的关键,因此核心专利识别对于技术创新具有重要引导作用。现有的核心专利识别方法多采用结构化数据,多依赖于专家意见法,存在识别效率低、可信度不足和信息不全面等问题,为了能够更加准确快速地识别核心专利,本文提出了一种面向专利结构化与非结构化数据的核心专利识别模型。首先,针对结构化数据特征优选问题,本文提出了一种基于分层加权改进的随机森林算法,传统随机森林算法在进行特征重要性的计算过程中仅考虑对特征在结点处的Gini值变化量进行简单求和,会丢失特征的位置信息,为了弥补传统随机森林算法特征选择过程的不足,本文以分层加权的方式取代原有简单求和的方式,筛选出结构化数据的重要特征,并通过UCI标准数据集验证算法改进的有效性。其次,针对非结构化数据特征表示问题,通过词向量模型将非结构化数据以词向量的形式进行特征表示。最后,提出了一种基于门控—注意力机制改进TextCNN的核心专利识别模型,并通过数据融合方法将专利结构化数据与非结构化数据相结合,采用智慧芽专利数据库中的真实专利数据验证本文提出的核心专利识别模型的有效性。实验结果表明,在UCI标准数据集上,本文提出的基于分层加权改进的随机森林算法具有更好的稳定性和特征选择效果,证明了基于分层加权改进的随机森林算法在特征选择方面的有效性。在智慧芽专利数据库的真实专利数据上,本文提出的面向结构化与非结构化数据的核心专利识别模型具有更高的准确率和运行效率,证明了本文提出的核心专利识别模型的有效性。
其他文献
亘在甲骨文中主要作为贞人名和国族名出现,贞人亘是武丁时期宾组一位常见的贞人,同时亘方也是一个重要的方国。作为宾组贞人之一,亘贞的相关卜辞数量不少,大致有500余版,亘贞内容事类丰富,本文依据其内容划分事类,包括祭祀、气象、战争、农事、田猎、妇女、往来、呼令、福祸,以及部分辞义不明或辞例较少者。在此基础上对各类卜辞的特征详细考察,包括组类分布、刻写用料、贞卜用语等。在事类划分方面,继承饶宗颐先生《殷
学位
在全球生产网络的影响下,劳动力嵌入其所在地方的特定制度、经济和社会关系实践之中。改革开放以后,中国逐渐放宽了城乡户籍制度,农村剩余劳动力在不同尺度上流转,基于行业准入政策或市场准入制度进行职业选择。劳动力在流动过程中表现出了不同的空间分布格局和网络组织特征,相关研究主要聚焦于劳动力在不同尺度地域范围内的流动,对劳动力密集型跨国公司的劳动力流动特征和影响因素研究不足。基于此,在全球生产网络研究不断深
学位
绿色是当前经济发展的主旋律。在十九大上党中央明确提出,要坚定不渝的贯彻可持续发展理念,大力发展经济的同时保护生态环境,实现经济高质量发展。十九大报告指出,创新是引领高质量发展的第一要义,是促进绿色经济发展的关键。推动绿色发展,提高绿色全要素生产率成为经济发展的重要任务和目标。工业经济是我国改革开放以来经济腾飞的“助推器”,工业集聚通过集聚效应和拥挤效应影响着我国工业绿色全要素生产率和经济高质量发展
学位
疾患医疗从古至今都是人们日常生活中的一个重要方面,早在殷墟卜辞中就有卜“疒”的相关卜辞与疾病相关联,数量可观。这些卜“疒”卜辞主要集中于武丁时期,其他时期零星有见;既有王卜辞,也有非王卜辞,据统计王卜辞有603版,非王卜辞57版。数量如此可观的卜“疒”卜辞对于进一步了解商人的社会医疗卫生状况是相当直观可靠的材料。前人研究疾病卜辞,多为按照患病部位进行分类,其下再罗列单条卜辞一一进行释读,本文立足于
学位
According to the accident statistics for buses,accidents involving frontal collision constitute an important percentage among all bus accidents.In this type of accidents,front body of the bus structur
学位
21世纪以来,我国经济社会快速发展,随着城市化进程的不断加快,城市规模迅速扩大,土地利用方式随之发生改变,大量自然地表被人工地表取代,造成生态环境的破坏。作为中原城市群的重要组成部分,自2004年国家实施中部崛起战略以来郑州-开封地区经历了快速城镇化过程,城镇用地不断扩张,城市的快速扩张对生态环境产生一系列影响。对该区域城市扩张进行动态监测,并分析城市扩张对生态环境质量的影响,将为郑州-开封地区不
学位
商丘及周邻地区地处中原文化与东方文化的中间地带,位置至关重要,文化面貌复杂。学界基于对该区域考古学文化面貌等方面的分析,已形成较完善的考古学编年序列,并在此框架下开展了各个方面的研究,但总体而言,对该区域仰韶到东周时期的研究相对较薄弱,如缺乏从区域聚落考古视角对这一区域进行长时段的观察和研究。本文通过梳理商丘及周邻地区(包括周口、开封、山东菏泽等地)仰韶到东周时期聚落遗址的相关材料,拟从区域聚落考
学位
轮胎是汽车行驶过程中唯一的接地部件,子午线轮胎的接地特性是汽车动力学研究的重要基础。子午线轮胎的接地特性受多方因素的影响,随着技术的不断发展,利用有限元仿真技术结合试验法成为研究子午线轮胎接地特性的重要手段。本文从子午线轮胎径向稳态接地与包覆接地、径向接地模态、高速径向接地驻波三方面进行研究子午线轮胎径向接地特性。首先,本文对195/65R15轮胎橡胶材料四种本构模型Neo-Hookean、Moo
学位
随着计算机视觉领域相关技术的快速发展,线结构光视觉检测技术越来越受到人们的重视,广泛应用于生产和生活的实际测量中,如三维重建、智能制造、路面检测等方面,具有成本低、精度高、实时性好、构造简单的优点,可以应用于环境感知领域,取代激光雷达和毫米波雷达的部分功能,达到降低成本的目的。本文主要研究内容如下:(1)本文以线结构光检测系统为研究对象,通过分析现有的直射式和斜射式线结构光视觉检测系统的工作原理,
学位
行人作为最弱势的道路使用者,其安全问题最先得到关注。为了更好地保护行人,各国相继颁布了行人保护法规和行人保护试验规程。随着两轮车事故的激增,学者关注骑车人的安全问题,并考虑建立相应的试验规程以评估车辆的防护能力。头部模型冲击器冲击试验作为目前行人保护试验规程的方法,已经成为广泛接受的行人头部保护测试方法,学者们通过对骑车人和行人碰撞过程中运动学差异性分析,评估该方法是否适用于对骑车人的保护,而在弱
学位