中文专利侵权检索模型研究

被引量 : 3次 | 上传用户:liuxc1112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展进步,人们对知识产权的重视程度大幅度提高,随之出现的是专利申请数量剧增,与之相伴随的还有专利侵权案件及专利无效宣判案件的扩增。这些问题出现的主要原因是目前的信息检索水平有待提高:信息查全率、查准率较低,还不能在海量的专利等相关文献中将所有与主题相关的信息全部呈现出来,检索结果存在大量无关信息,这些给用户造成巨大的干扰。本文在研究信息检索及专利侵权研究现状的基础上,利用文本挖掘的思想,系统的对基于中文的专利侵权检索模型进行构建。专利侵权检索主要分为两种类型:规避侵权检索及主动侵权检索。规避侵权检索旨在根据用户自己的专利(已经申请或者未申请)、产品必要技术特征、研发方向的技术特征内容,将可能会侵犯的已审批专利检索出来。主动侵权检索旨在根据用户自己的专利(已经授权)检索是否有相同的专利被重复授权。本文主要内容包括:数据获取及文本预处理、专利侵权检索模型构建、系统实现、实验效果评估及对研究的总结展望。本研究的专利实验数据由中国国家知识产权局公布的发明、实用新型专利组成,通过对专利独立权利要求书进行一系列的处理操作,从而将疑似侵权专利呈现出来。在数据获取及文本预处理部分首先将图片格式的专利权利要求书通过OCR工具转换为纯文本。其次,总结归纳转换过程中的字符识别错误及格式错误,对这些错误进行纠正。再次,在中科院ICTCLAS分词系统的基础上,提出一种适合中文专利权利要求书的分词算法,对实验数据进行分词处理。最后根据需要对可能用到的著录项、专利文本、分词结果等提取出来,保存成XML文本,形成XML数据库。在专利侵权检索模型构建部分通过对专利侵权判定原则及专利权利要求书的特征进行分析,提出利用专利必要技术特征集合覆盖度计算来代替传统的文本向量夹角余弦相似度计算方式,实验证明该方法具有可行性。除此之外本文还对本体的构建、倒排索引的构建等进行阐述说明。在系统实现及实验效果评估部分,陈述了系统的实现环境、主要使用技术、部分核心代码及算法的实验效果。本文的创新点在于:第一,利用OCR将PDF文件转换为文本文件,并进行容错处理。第二,根据中文专利权利要求书特点,进行分词处理,并利用特征词进行特征提取。第三,提出根据专利必要技术特征覆盖度算法进行专利侵权判定的方法。
其他文献
分析了高压直流(HVCD)换相失败的机理及发生换相失败的原因,介绍了三?广直流输电工程换相失败预测控制模块,针对其中u0检测在交流电压过零时故障启动慢和abc-αβ坐标变换在
随着网络时代的不断完善,网络技术的不断发展,网络已经悄无声息地延伸到大众生活的各个领域,成为人们生活中不可缺少的一部分,更是人们获取各类信息的重要途径。笔者针对网络
文章对媒体经济的研究对象和研究领域作一般性的阐述 ,认为媒体经济的研究包括两个主要范围 :媒体研究的经济学理论框架 ,包含政治经济、消费者和企业的决策过程经及媒体的经
<正> 调经种子膏外敷治疗不孕证之法,由河北省肃宁县医院名老中药师王秋芝先生所传授。王先生从事中药工作四十余年,在当地负有盛名,曾运用此法治愈不孕证三十余例,疗效满意
一家只有几十平方米、只卖发票不卖车的二手车交易公司,竟使得两家投资数千万的二手车交易市场几近倒闭,在涉事各部门的相互推诿之间,抚顺市政府多年来重点整治的市场秩序岌
汉英副词性关联词语具有篇章衔接功能,它们可以表示复句中分句与分句之间的关系;篇章中句子与句子的关系、句段与句段的关系,其本质上就是篇章关系。文章主要以汉英复句中的
发达的服务业是现代化经济的重要特征,随着产业结构逐步向更高层次转化,服务业逐渐成为现代经济增长的主要动力,但在服务业的发展中则难免会出现许多的问题,作为内地省份的河
关于语篇连贯与衔接的研究一直是语言学界一个备受关注的问题。语篇连贯的宏观原则包括指称链贯穿原则、相近性原则、冲突原则、密度原则、体裁优先原则等。本文首先介绍这些
期刊