论文部分内容阅读
随着社会的发展进步,人们对知识产权的重视程度大幅度提高,随之出现的是专利申请数量剧增,与之相伴随的还有专利侵权案件及专利无效宣判案件的扩增。这些问题出现的主要原因是目前的信息检索水平有待提高:信息查全率、查准率较低,还不能在海量的专利等相关文献中将所有与主题相关的信息全部呈现出来,检索结果存在大量无关信息,这些给用户造成巨大的干扰。本文在研究信息检索及专利侵权研究现状的基础上,利用文本挖掘的思想,系统的对基于中文的专利侵权检索模型进行构建。专利侵权检索主要分为两种类型:规避侵权检索及主动侵权检索。规避侵权检索旨在根据用户自己的专利(已经申请或者未申请)、产品必要技术特征、研发方向的技术特征内容,将可能会侵犯的已审批专利检索出来。主动侵权检索旨在根据用户自己的专利(已经授权)检索是否有相同的专利被重复授权。本文主要内容包括:数据获取及文本预处理、专利侵权检索模型构建、系统实现、实验效果评估及对研究的总结展望。本研究的专利实验数据由中国国家知识产权局公布的发明、实用新型专利组成,通过对专利独立权利要求书进行一系列的处理操作,从而将疑似侵权专利呈现出来。在数据获取及文本预处理部分首先将图片格式的专利权利要求书通过OCR工具转换为纯文本。其次,总结归纳转换过程中的字符识别错误及格式错误,对这些错误进行纠正。再次,在中科院ICTCLAS分词系统的基础上,提出一种适合中文专利权利要求书的分词算法,对实验数据进行分词处理。最后根据需要对可能用到的著录项、专利文本、分词结果等提取出来,保存成XML文本,形成XML数据库。在专利侵权检索模型构建部分通过对专利侵权判定原则及专利权利要求书的特征进行分析,提出利用专利必要技术特征集合覆盖度计算来代替传统的文本向量夹角余弦相似度计算方式,实验证明该方法具有可行性。除此之外本文还对本体的构建、倒排索引的构建等进行阐述说明。在系统实现及实验效果评估部分,陈述了系统的实现环境、主要使用技术、部分核心代码及算法的实验效果。本文的创新点在于:第一,利用OCR将PDF文件转换为文本文件,并进行容错处理。第二,根据中文专利权利要求书特点,进行分词处理,并利用特征词进行特征提取。第三,提出根据专利必要技术特征覆盖度算法进行专利侵权判定的方法。