论文部分内容阅读
近年来,中国的专利申请量极大且增速较快。报告显示仅2017年,国内发明专利申请量就高达138.2万件,同比增长14.2%,已审结74.4万件,未审结的专利文献量都很大而且不断增长。人工进行专利信息的标引和分类需要大量有专业基础的人,因此工作量巨大且进展缓慢,标引和分类时容易出现一致性错误,造成专利文献检索漏检、偏检和噪音大等问题。专利文本是一种半结构化的数据,难用现有数据结构方法加以规范。如何从具有技术和法律二维特征的专利文献中提取所需要的技术特征,对专利文献所描述的技术内容加以解析,是基于技术语言语义分析领域研究的重点。传统基于词频统计的文本挖掘方法难以适应专利文献的复杂结构,导致分析结果准确性不足,因此开展以专利文献为代表的技术语言的语义分析研究,准确定位和提取专利文献中的技术和产品特征。本文围绕专利文本的语义分析需求,重点对专利语言特征的准确提取开展研究与实验。通过构建专利领域本体来获取尽可能多专利领域术语信息,提高专利文献检索的查全率和查准率,并减少人工标引和检索的工作量。为此,本文主要做了如下研究工作:1、基于依存关系树-CRF(条件随机场)的文本术语提取。基于依存关系树-CRF的特征提取是基于语义分析的特征数据选取方法。传统文本关键词挖掘算法主要是基于特征向量模型计算词语在文档中出现的频率,容易忽略部分低频关键技术特征词。针对该问题,提出基于依存关系-CRF的文本特征提取算法对文本中每个词进行词性标记,并基于特征模版实现专利文本中术语自动提取。2、基于改进K-MEANS聚类算法的术语层次关系提取针对K-MEANS算法获取术语的层次关系,存在的无法自动确定类标签问题,提出基于科学统计和层次聚类的K-MEANS算法,能够自动的获取最佳类标签。本文对上述提出的两种改进方法分别做了实验,基于依存关系树-CRF的文本特征提取方法可应用于任意部分的专利文本中;相对于传统K-MEANS算法,基于科学统计和层次聚类改进的K-MEANS聚类算法可有效的对层次内部的聚类标签进行标记,更容易得到完整的层次关系。