基于语言知识的专利检索再分类技术

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:liongliong448
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文献是各国发展经济技术不可缺少的信息资源,目前使用的专利信息检索服务主要采用关键词匹配技术,用同一个关键词检索到的大量专利文献,在内容类型上有相当大的差异。本文所研究的主要问题,是采用自然语言处理技术,通过对专利摘要的信息进行深入分析,对用关键词检索出来的专利文献按内容的不同进行再分类。这种再分类技术,可以帮助研究人员对海量相关专利文献内容进行深度分析,以便了解要研究的专利的共性和差异性,迅速定位到所关注的专利信息,从而提高工作效率。   本文所做的工作主要有以下四个方面:   1.分析专利检索再分类的用户需求,提出了专利检索再分类的具体要求和分类类别。   2.为了实现专利文献检索结果的再分类,需要解决的基本问题是判断在专利摘要这一文本中有哪些语言知识可以为再分类技术服务。为了解决这一问题,需要专利语料库的支持。本文通过专利文献的选取、收集和标注这三个步骤的工作构建了一个专利语料库,用于笔者分析可服务于再分类技术的语言知识。   3.分三个层面来研究服务于专利检索再分类技术的语言知识:词语层面、语句层面以及篇章层面。词语层面知识的研究主要集中在分析组成专利文献摘要文本的词语中,有哪些能够直接反映出该项专利的再分类类别信息。本文在把握专利文献词语特征的基础上提出了类别关键词的定义,并构建了一个包含类别关键词表、类别关键词后缀表以及类别关键词短语表的词语知识库。语句层面知识的研究主要分析了专利检索再分类所需的句法语义模式,对模式进行总结归纳,并以形式化的方式将其描述出来,构建了一个服务于再分类技术的句法语义模式库。模式共分为三类:基本式、变化式与复杂式。篇章层面知识的研究将一个专利摘要语段按内容的不同分为全局判断、工作原理、组成结构和评价内容四个部分来进行考察,在此基础上判断出首句是话题最主要的表现形式,对于判断专利文本的类别起着相当重要的作用。   4.以C#语言实现了一个专利检索再分类程序,并对该程序进行了测试与结果分析。   本文所解决的关键问题是利用语言知识实现了一种专利检索再分类的非统计方法。
其他文献
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
“黄老”合称始自《史记》,但黄老思想的兴起与兴盛却早在战国时期,并且是战国至汉初的显学,在中国古代哲学史和思想史中,具有特别重要的地位。随着“黄老帛书”等黄老派的文
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
学位
采用低C添加SiMnNbTi成分,通过两阶段控制轧制开发出了屈服强度为700MPa级热轧带钢.研究了不同轧制温度对钢板力学性能及析出粒子的影响规律,并采用TEM、SEM等实验技术对钢板
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
作为著名的文学家、教育家、批评家,朱自清在中国现代文学史上享有盛名,教育思想也不乏关注。但是,朱自清先生有大量的诗学研究和探讨,也有各类作品鉴析活动,更有将这种批评
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
本文试图以郁达夫小说为中心,探讨关注中国现代文学中一种独特“自我”的生成。这里有一个理论上的假定,即文学与自我的关系并不是一个表现与被表现的关系,而可能是一种现代