中文专利知识获取方法研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:seraph72
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利是人类的知识成果,最大程度的开发利用专利知识,可以为国家和企业缩短时间,节省费用。专利知识抽取,作为深层次理解专利内容的重要基础,日益成为专利研究的热点,直接影响着专利检索、专利翻译、专利分析等多方面应用的性能。有效的利用专利知识,可以揭示专利中隐藏的重要信息,为企业的发展以及重大决策的制定提供重要参考和指导作用。本文从专利术语、专利技术主题以及专利功效短语三方面对专利知识进行识别,以及对部分知识进行规范化研究,主要研究工作如下:  专利术语作为专利文献核心内容的主要表现形式,其抽取任务是专利多方面研究的基础工作。本文提出一种基于层次过滤方法抽取专利术语。该方法基于后缀数组获取的重复字串作为候选词,根据候选词集合中无效词串的特点将其分为破碎字串、冗余字串和通用词,通过识别和过滤三类无效字串来获得专利术语。分别提出一种独立性计算法过滤破碎字串,相对活跃度计算方法和分词纠错法过滤冗余字串。实验结果表明,识别的术语平均正确率为90.87%,平均召回率为84.68%,该方法对中文专利术语抽取取得了较好的效果。  利用文本挖掘技术进行技术主题抽取和主题规范化工作。根据技术主题在专利摘要中的分布特点以及技术主题的粒度特征,提出一种主题度计算方法,将主题度较大的词作为主题词;通过计算相似度获得主题词的同义词对,借助词频统计特征对主题词规范化表示。实验结果表明,提出的主题词抽取方法是有效的,实验准确率为95.5%,召回率为95.5%;同时提出的主题规范化方法具有较大的意义。  功效信息作为专利功效分析的关键和基础,其完整性和准确性对分析结果的有效性和准确性具有决定性意义。为了提高功效信息抽取的效果,提出一种功效短语识别方法。功效短语进行高度概括化,将功效短语分为功效主题、功效属性和功效值三部分。短语的识别即三个组成部分的词语识别。综合利用功效短语所在句子特征和构词特征,包括句子位置信息、线索词等有效特征。同时,采用条件随机场模型及其复合模板,对专利摘要文件进行功效短语识别。实验结果表明,准确率为79.25%,召回率为56.7%,提出的功效短语识别方法是有效的。
其他文献
无线传感器网络是由大量低成本的传感器节点组成的无线自组织网络,能够随时随地搜集物理数据,实现人与物理世界的自然交流。无线传感器网络采用在一定区域内布置大量具有感知和
网络技术的迅速发展带来了网络信息量的急剧增长,传统的广域网存储服务在安全上已不能满足需要,尤其是下一代互联网时代的到来,对广域网文件存储服务的安全提出了新的要求。
G(o)del语言是继Prolog语言之后出现的新型说明性通用逻辑程序设计语言,它建立在多态多类的一阶逻辑基础之上,摒弃了Prolog语言中的非逻辑成分,集成了多种语言的有效成分和优点,
测试用例生成作为软件测试最为关键的环节,它是需要耗费大量的劳动力和时间的步骤,因此对于测试用例的自动生成已经成为了一种迫切的需求。同时,在软件开发过程中,UML已经成为了
目前,我国风电事业迅速发展,推动了风电场信息化建设的步伐。但在这个过程中,因风电场设备时间跨度大,设备型号种类多,各个风轮机组信息模型及通信协议各不相同,使得用传统技
办公文档应用的广泛性,不仅要求一种文档格式能够被不同办公软件理解和应用,还要求不同的文档格式之间能够相互转换和存储。针对办公文档格式多个标准共存、各标准互不兼容的现
由于高吞吐率和高容量存储系统的需求牵引,网络存储体系结构正经历着重要的变化。基于对象的存储是一种非常有前景的网络存储模型。在该模型中,文件被分割成一个或多个对象存储
负载均衡(Load-balancing)技术用于分布式系统中以求达到资源的有效利用,但现有的负载均衡系统大多采用广播或轮循的方式去提取负载信息,占用了大量的系统资源且效率低下,并
由于因特网的普及及日益增长的对多媒体服务的需求,因特网上的流媒体技术已经吸引了越来越多的关注。自从20世纪九十年代初被提出以来,流媒体技术已在世界范围内得到广范应用
随着科学技术的不断发展,各种需求的不断提出,定位技术的应用场景也越来也丰富,尤其是在恶劣的自然环境或大范围的场所,如煤场,要求对进场车辆进行严格的位置确定,而煤场煤坑