论文部分内容阅读
专利文献是各国发展经济技术不可缺少的信息资源,目前使用的专利信息检索服务主要采用关键词匹配技术,用同一个关键词检索到的大量专利文献,在内容类型上有相当大的差异。本文所研究的主要问题,是采用自然语言处理技术,通过对专利摘要的信息进行深入分析,对用关键词检索出来的专利文献按内容的不同进行再分类。这种再分类技术,可以帮助研究人员对海量相关专利文献内容进行深度分析,以便了解要研究的专利的共性和差异性,迅速定位到所关注的专利信息,从而提高工作效率。
本文所做的工作主要有以下四个方面:
1.分析专利检索再分类的用户需求,提出了专利检索再分类的具体要求和分类类别。
2.为了实现专利文献检索结果的再分类,需要解决的基本问题是判断在专利摘要这一文本中有哪些语言知识可以为再分类技术服务。为了解决这一问题,需要专利语料库的支持。本文通过专利文献的选取、收集和标注这三个步骤的工作构建了一个专利语料库,用于笔者分析可服务于再分类技术的语言知识。
3.分三个层面来研究服务于专利检索再分类技术的语言知识:词语层面、语句层面以及篇章层面。词语层面知识的研究主要集中在分析组成专利文献摘要文本的词语中,有哪些能够直接反映出该项专利的再分类类别信息。本文在把握专利文献词语特征的基础上提出了类别关键词的定义,并构建了一个包含类别关键词表、类别关键词后缀表以及类别关键词短语表的词语知识库。语句层面知识的研究主要分析了专利检索再分类所需的句法语义模式,对模式进行总结归纳,并以形式化的方式将其描述出来,构建了一个服务于再分类技术的句法语义模式库。模式共分为三类:基本式、变化式与复杂式。篇章层面知识的研究将一个专利摘要语段按内容的不同分为全局判断、工作原理、组成结构和评价内容四个部分来进行考察,在此基础上判断出首句是话题最主要的表现形式,对于判断专利文本的类别起着相当重要的作用。
4.以C#语言实现了一个专利检索再分类程序,并对该程序进行了测试与结果分析。
本文所解决的关键问题是利用语言知识实现了一种专利检索再分类的非统计方法。