论文部分内容阅读
专利是人类的知识成果,最大程度的开发利用专利知识,可以为国家和企业缩短时间,节省费用。专利知识抽取,作为深层次理解专利内容的重要基础,日益成为专利研究的热点,直接影响着专利检索、专利翻译、专利分析等多方面应用的性能。有效的利用专利知识,可以揭示专利中隐藏的重要信息,为企业的发展以及重大决策的制定提供重要参考和指导作用。本文从专利术语、专利技术主题以及专利功效短语三方面对专利知识进行识别,以及对部分知识进行规范化研究,主要研究工作如下: 专利术语作为专利文献核心内容的主要表现形式,其抽取任务是专利多方面研究的基础工作。本文提出一种基于层次过滤方法抽取专利术语。该方法基于后缀数组获取的重复字串作为候选词,根据候选词集合中无效词串的特点将其分为破碎字串、冗余字串和通用词,通过识别和过滤三类无效字串来获得专利术语。分别提出一种独立性计算法过滤破碎字串,相对活跃度计算方法和分词纠错法过滤冗余字串。实验结果表明,识别的术语平均正确率为90.87%,平均召回率为84.68%,该方法对中文专利术语抽取取得了较好的效果。 利用文本挖掘技术进行技术主题抽取和主题规范化工作。根据技术主题在专利摘要中的分布特点以及技术主题的粒度特征,提出一种主题度计算方法,将主题度较大的词作为主题词;通过计算相似度获得主题词的同义词对,借助词频统计特征对主题词规范化表示。实验结果表明,提出的主题词抽取方法是有效的,实验准确率为95.5%,召回率为95.5%;同时提出的主题规范化方法具有较大的意义。 功效信息作为专利功效分析的关键和基础,其完整性和准确性对分析结果的有效性和准确性具有决定性意义。为了提高功效信息抽取的效果,提出一种功效短语识别方法。功效短语进行高度概括化,将功效短语分为功效主题、功效属性和功效值三部分。短语的识别即三个组成部分的词语识别。综合利用功效短语所在句子特征和构词特征,包括句子位置信息、线索词等有效特征。同时,采用条件随机场模型及其复合模板,对专利摘要文件进行功效短语识别。实验结果表明,准确率为79.25%,召回率为56.7%,提出的功效短语识别方法是有效的。