一种专利自动推荐方法的算法设计

来源 :决策与信息·下旬刊 | 被引量 : 0次 | 上传用户:supengfei789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 针对中学生创新活动的不断开展以及科技研发人员从事创新活动而需要频繁检索专利的需求,要为自己的发明和设计申请专利,要从已经有的发明和创造中吸取有益的营养,我们都需要对现有专利进行查询,然而目前专利检索智能程度不高,本文提出一种专利智能推荐算法。算法的输入是用户输入的检索内容,输出结果中不仅包括检索系统输出的专利还包括一批推荐的专利。本算法首先实现专利间的关联,进而计算专利关联度,并根据关联度对推荐专利进行排序,构成一个有序的推荐专利集合。本设计要解决的技术问题是要在已有专利检索平台的基础上根据专利检索者提供的检索内容,实现对与专利检索平台返回结果相关的其他专利的自动推荐。
  关键词 专利推荐 关联度 推荐算法
  中图分类号:G064 文献标识码:A
  在我国,较有权威和影响力的专利检索网络平台包括:中国国家知识产权局网站(www.sipo.gov.com)、中国知识产权网(www.cnipr.com)、中国专利网(www.cnpatent. Com等七大检索平台以及中国期刊网(www.cnki.net)。这七大专利检索平台采用的检索形式与传统信息检索类似,采用字段检索,输入检索词或按照“*” (与)、“+”(或)、“一”(非)等组成字段内或字段间逻辑关系式。这些字段包括:专利号、专利名称、摘要、国际分类号等。
  目前主流的推荐算法主要包含以下几大类:基于内容的推荐,协同过滤的推荐,基于知识的推荐和组合推荐。仲伟炜通过跟踪和记录用户的访问操作行为,分析专利查询者经常一起查阅的专利文献,利用关联规则来分析专利文献的相关性,以实现专利文献的个性化推荐。该算法本质上属于协同过滤推荐,需要跟踪大量用户的专利检索行为,所推荐专利是一群专利用户的共同兴趣。而对于科技研发人员来说,经常需要检索与本身研究目的相关的专利。通过专利检索,了解当前研究现状,同时拓展研究思路。在这种情况下以上文献提出算法将变得不再适应。
  在我国,较有权威和影响力的专利检索网络平台包括:中国国家知识产权局网站(www.sipo.gov.com)、中国知识产权网(www.cnipr.com)、中国专利网(www.cnpatent. Com)、中国专利信息网(www.patent.com.cn)等七个检索平台。这七个专利检索平台采用的检索形式与传统信息检索类似,采用字段检索,输入检索词或按照“*” (与)、“+”(或)、“一”(非)等组成字段内或字段间逻辑关系式。这些字段包括:专利号、专利名称、摘要、国际分类号、发明人、申请人、公开日等。根据以上检索网络平台这些字段特点,本文提出的算法向用户推荐专利标题以及摘要中不包含检索词,但其在内容上又和检索词存在一定语义关联的专利。本文提出的算法将依据类容上的关联度推荐,在已有专利检索平台的基础上根据专利检索者提供的检索内容,实现对与专利检索平台返回结果相关的其他专利的自动推荐。
  一、专利自动推荐方法相关概念及设计思想
  (一)目标专利特征向量生成。
  首先根据用户输入的检索式通过某个专利检索平台获得一个专利集合,称为C,提取C中各篇专利的专利名、专利分类号、专利摘要等信息,然后采用下面的方法提取C中专利的目标专利特征向量:
  1、提取C中全部专利的专利分类号所覆盖的专利分类号的最长的公共部分,设此字符串为Si,此类字符串的数量为m,并根据Si将C中专利进行分组,也就是有C=Ci;
  2、根据C中专利的分组,分别提取各组Ci(1≤i≤m)中各个专利的摘要;然后对各摘要实施分词;过滤掉量词和副词等词语后,留下名词和动词两类词语;然后统计各个词语出现的总频率;按词频从高到低排序,取前K个词语对应的词频,构成各组对应的目标专利特征向量TFi(1≤i≤m),将这K个词语构成的集合分别定义为词表Vi(1≤i≤m)。
  (二)推荐专利集生成。
  1、根据专利分类的等级结构——部、大类、小类、大组和小组, 确定每个最长的公共部分Si(1≤i≤m)所覆盖的专利分类等级;
  2、对各个专利分组Ci中的各专利的标题进行中文分词,过滤掉量词、副词等语义表达能力不强的词语,留下的词性为动词和名词的词构成各组专利对应的检索词集合Wi(1≤i≤m);
  3、利用检索词集合Wi(1≤i≤m)中的各个词,通过专利在线检索平台在专利分类号=Si+’*’ (1≤i≤m)条件下再进行检索,得到专利集合(1≤i≤m)。从而得到推荐专利集合Ci=-Ci(1≤i≤m)。
  4、在1中,其特征在于:第一个关键步骤中,提取C中全部专利的专利分类号所覆盖的专利分类号的最长的公共部分,以实现对C中专利的分组。第二个关键步骤中,利用检索词集合Wi(1≤i≤m)中的各個词,通过专利在线检索平台在专利分类号=Si+’*’ (1≤i≤m)条件下再进行检索,得到专利集合(1≤i≤m),从而得到推荐专利集合Ci=-Ci(1≤i≤m)。
  二、具体实施算法描述(如图1)
  (一)专利数据获取。
  根据用户输入的检索式通过某个专利在线检索平台检索得到专利集合C,并获取C中专利的专利名、专利分类号、专利摘要等信息。专利数据获取流程如图2所示。在此图中,选取的专利在线检索平台可为前面提及的七大专利检索平台中的任何一个。
  (二)目标专利特征向量生成。
  目标专利特征向量的计算方法如图3所示,主要步骤如下:
  1、取C中各专利的专利分类号最长的公共部分,设此字符串为Si,设此类字符串的数量为m,并根据Si将C中专利进行分组,也就是有C=Ci;
  2、根据C中专利的分组,分别提取各组中各个专利的摘要;然后对各摘要实施分词;过滤掉量词和副词等词语后,留下名词和动词两类词语;然后统计各个词语出现的总频率;按词频从高到低排序,取前K个词语对应的词频,构成各组对应的目标专利特征向量。构成TFi,这K个词语构成的集合分别定义为词表Vi。比如可取K=10。   (三)推荐专利集生成。
  推荐专利集生成如图4所示,主要步骤如下:
  1、根据专利分类的等级结构——部、大类、小类、大组和小组, 确定每个最长的公共部分Si(1≤i≤m)所覆盖的专利分类等级;
  2、对各个专利分组Ci(1≤i≤m)中的各专利的标题进行中文分词,过滤掉量词、副词等语义表达能力不强的词语,留下的词性为动词和名词的词构成各组专利对应的检索词集合Wi(1≤i≤m);
  3、利用检索词集合Wi中的各个词通过专利在线检索引擎平台在专利分类号=Si+’*’ (1≤i≤m)条件下再进行检索,得到专利集合(1≤i≤m)。从而得到推荐专利集合Ci=-Ci(1≤i≤m)。
  (四)推荐专利排序
  推荐专利排序的方法如图5所示。
  用于描述推荐专利的内容特征的K维向量被称为专利特征向量。专利特征向量的构造方法是:在推荐专利集合Ci(1≤i≤m)中提取第j篇专利的摘要;对其进行中文分词,过滤掉量词和副词等词语,留下名词和动词两类词语;然后统计各个词语的词频,根据词表Vi中词语的顺序,定义一个K维向量。若词表Vi中的某词不在分词结果中,则填入0,否则填入该词的词频。用F表示专利集合Ci(1≤i≤m)中第j篇专利的专利特征向量,则该推荐专利与目标专利特征向量之间的关联度计算如式(1)所示:
  (1)
  依次计算每个推荐专利集合Ci(1≤i≤m)中各个推荐专利与该组的专利目标特征向量之间的关联度,最后将Ci中所有专利的关联度按照从高到低的顺序排序输出。
  3。附图(图1、2、3、4、5)
  三、总结
  本设计提出了一种基于已有专利检索平台,为查询专利者提供自动推荐内容项相关而检索标题中没有的专利的算法,算法解决了在已有专利检索平台的基础上根据专利检索者提供的检索内容,实现对与专利检索平台返回结果含有内在联系的其他专利的自动推荐,这些自动推荐的专利标题或摘要中或许不含有检索词,但是在内容上却高度相关。
  (作者:唐国利,桂林电子科技大学工程硕士在读,软件工程专业;本科学士学位:信息与计算科学专业;黄奕,李春波,桂林中学)
  参考文献:
  [1]许海玲, 吴潇, 李晓东等. 互联网推荐系统比较研究[J]. 软件学报,2009, 20(2): 350-362
  [2]仲伟炜. 专利文献分类及关联推荐技术应用研究[D]. 南京, 南京航空航天大学,2009
  [3]胡晓,魏雪梅等. 我国网络专利检索平台分析和评价[J]. 科技管理研究, 2010, 14:75-81
  [4]李容. 基于K均值聚类算法的图书商品推荐仿真系统[J]. 计算机仿真, 2010,27(6): 346-349
  [5]张晗,潘正运等 旅游服务智能推荐系统的研究与设计 计算机信息 ,2006.05-3(22)
  [6]Bing Liu 著 俞勇韓定一等译 Web数据挖掘 清华大学出版社 2009.4
其他文献
11月21日最高人民法院发布了《关于发布第一批指导性案例的通知》,指出经最高人民法院审判委员会讨论通过,决定将上海中原物业顾问有限公司诉陶德华居间合同纠纷案等4个案例作为第一批指导性案例予以公布;要求各级法院对于上述指导性案例,组织法官认真学习研究,深刻领会和正确把握指导性案例的精神实质和指导意义;要增强运用指导性案例的自觉性。笔者非常赞同最高人民法院发布指导性案例的做法,同时还认为,由于指导性案
一、有关“粮”的两个基本概念rn本文中的“粮”是针对“国家财政下拨给企业使用的国家重点建设工程专项资金.”这样对于复杂的专用名司的借代.之所以这样做,主要的目的有两
证实慢性心衰大鼠延髓头端腹外侧区(RVLM)γ-氨基丁酸A型(GABAA)受体介导的紧张抑制作用.冠脉结扎法诱导大鼠慢性心衰模型,在RVLM注射GABAA受体阻断剂甲碘荷包牡丹碱,观察动
12月9日上午,刘平、靳福东的家人和代理律师就铁道部拒兑1995年铁道债一事前往北京市海淀区人民法院进行立案。随后,本刊记者采访了两位当事人及代理律师。面对记者,刘平直摇头叹息,称立案并不顺利,并向记者讲述了这件历时两年半的风波。  今年46岁的刘平是山东省曲阜市陵城镇陵北村的一个普通村民,穿着朴素,酷爱收藏。2010年5月末,一张来自济南铁路公安局的调取证据通知书将刘平卷入了一场“铁道债诈骗”的
时任西南证券高管的季敏波涉嫌利用未公开信息交易云南景谷林业股份有限公司(下称“景谷林业”,600265.SH)股票一事,经证监会调查后起底.这是证监会稽查局在2011年快速初步调
本文以青岛理工大学(临沂)物流管理专业“订单班(2+1)”培养模式为样本,提出该模式在学校、企业、教师和学生不同层面的优缺点,提出“订单班(2+1)”物流人才培养模式的改进建议。
在中国古典戏曲文学中,涌现了多种版本的青楼女子李亚仙的故事.本文从文本细读下手,通过比较唐、元、明时期李亚仙故事的改编,结合剧作家个体的创作主旨、不同时代特定的社会
道教自东汉创教以来,大盛于李唐王朝,复历五代动乱而低靡,至宋初崇道热潮开始复苏并高涨,这一时期的文人多受其影响,道教的观念、题材、人物、语言等被大量地运用在文学作品
阳光私募卷入市场操纵案?2009年6月,证监会稽查总队的一纸公告,引起了市场的密切关注.公告称,证监会稽查总队已对湖北国贸盛乾投资有限公司(下称“国贸盛乾”)等涉嫌违反证券