面向专利信息处理的语义分析方法研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:sniper0928
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,中国的专利申请量极大且增速较快。报告显示仅2017年,国内发明专利申请量就高达138.2万件,同比增长14.2%,已审结74.4万件,未审结的专利文献量都很大而且不断增长。人工进行专利信息的标引和分类需要大量有专业基础的人,因此工作量巨大且进展缓慢,标引和分类时容易出现一致性错误,造成专利文献检索漏检、偏检和噪音大等问题。专利文本是一种半结构化的数据,难用现有数据结构方法加以规范。如何从具有技术和法律二维特征的专利文献中提取所需要的技术特征,对专利文献所描述的技术内容加以解析,是基于技术语言语义分析领域研究的重点。传统基于词频统计的文本挖掘方法难以适应专利文献的复杂结构,导致分析结果准确性不足,因此开展以专利文献为代表的技术语言的语义分析研究,准确定位和提取专利文献中的技术和产品特征。本文围绕专利文本的语义分析需求,重点对专利语言特征的准确提取开展研究与实验。通过构建专利领域本体来获取尽可能多专利领域术语信息,提高专利文献检索的查全率和查准率,并减少人工标引和检索的工作量。为此,本文主要做了如下研究工作:1、基于依存关系树-CRF(条件随机场)的文本术语提取。基于依存关系树-CRF的特征提取是基于语义分析的特征数据选取方法。传统文本关键词挖掘算法主要是基于特征向量模型计算词语在文档中出现的频率,容易忽略部分低频关键技术特征词。针对该问题,提出基于依存关系-CRF的文本特征提取算法对文本中每个词进行词性标记,并基于特征模版实现专利文本中术语自动提取。2、基于改进K-MEANS聚类算法的术语层次关系提取针对K-MEANS算法获取术语的层次关系,存在的无法自动确定类标签问题,提出基于科学统计和层次聚类的K-MEANS算法,能够自动的获取最佳类标签。本文对上述提出的两种改进方法分别做了实验,基于依存关系树-CRF的文本特征提取方法可应用于任意部分的专利文本中;相对于传统K-MEANS算法,基于科学统计和层次聚类改进的K-MEANS聚类算法可有效的对层次内部的聚类标签进行标记,更容易得到完整的层次关系。
其他文献
对近年来福建省出口纺织服装质量情况进行了较为详细分析,指出了福建省出口纺织服装存在的有关问题,并提出相关应对措施和建议,供纺织企业及相关人员参考。
结合既有地铁房山线长阳镇站—稻田站高架桥区间的69#~71#轴桩基工程实践,介绍了全回转全套管钻机施工工艺,该工艺具有无噪音,无振动,全套管护壁,不会塌孔,缩颈,对周边环境无
体育课程是高校学生的必修课,对于提升高校学生的身体素质,保证新时代大学生的身心发展具有重要意义。文章首先探讨了目前高校体育课程的特点,进而结合西部高校现有的体育课
为探寻红景天苷超声提取的最佳工艺条件,通过单因素和正交试验,对红景天提取工艺条件进行优化研究。结果表明:超声波法的最佳提取条件是以60%乙醇水溶液为溶剂、料液比为1∶20
<正>上海师范大学语言研究所王双成教授的《藏语安多方言语音研究》2012年4月由上海文艺出版(集团)有限公司中西书局正式出版发行。《藏语安多方言语音研究》是王双成教授独
用原子吸收光谱法测定胃癌、大肠癌、乳腺癌组织及癌症旁组织和同体正常组织中铬、锰、锌、铁、铜和钙的含量.结果,在胃癌组织中锌的含量比癌旁组织、同体正常组织少,铜的含量比
胶带输送机是最紧要的输送装置之一,大多用来运输粒状、粉状等散状材料。进入新世纪以来,伴随国民经济的增长,在胶带输送机研发水平快速提升的今天,长距离、大运量、高速变成
采用断口宏观分析、金相检验等方法,对避雷器接线板断裂原因进行分析,发现接线板的断裂原因是疲劳所致,提出在设备安装前应对此类金具增加力学性能检测,同时在金具设计阶段对
近年来植物产生的花粉过敏、飞毛飞絮等植源性污染问题日益突出,给城市环境、居民生产生活和身体健康带来不利影响。文章依据前期对北京、成都、合肥、广州等城市开展的调查,
针对老式200型18盘捻股机存在故障率高、电机内部电流加大、维修成本较高,影响生产效率等问题,利用变频器对老式捻股机进行改造,充分利用变频器的软启动功能和防堵转功能,并对原