论文部分内容阅读
相似专利是技术相似性、竞争性的体现,表征了企业技术层面的竞争态势分布,通过测量专利相似度从而发现相似专利对专利侵权检测、专利检索、企业竞争分析、专利布局、新技术识别、专利规避、侵权检测、专利诉讼、专利预警等都具有重大意义。目前研究专利相似度的方法主要集中于专利引文和专利文本。这两种方法分别从单一信息源对专利的相似度进行了刻画,都还有一定缺陷。本文提出基于多源信息融合理论,通过线性加权模型对专利相似度进行融合的方法。在通过专利引文计算专利相似度的方法中选择专利耦合,在通过专利文本计算专利相似度的方法中选择了向量空间模型和LDA(latent dirichlet allocation)主题模型,综合考虑专利引文和专利文本对专利相似度的影响,通过遗传算法对三种方法所得的专利相似度赋予不同的权重从而调节各方法对相似度计算影响的大小,从而从而准确地计算专利相似度。该方法与其他方法相比,信息来源更加全面广泛,权重刻画较为客观,从而使专利相似度计算更加准确。 本文是提出理论再选择数据加以实证的过程。选择新一代移动通信技术领域的专利为例,分别计算了基于专利耦合的引文相似度和基于向量空间模型、基于LDA主题模型的文本相似度。相似度的对比分析发现:同样的专利数据集,基于专利耦合和向量空间模型所计算的相似度普遍较小,大多分布在0-0.1区间段。基于专利耦合所计算的相似度大多为0。基于LDA主题模型所计算的相似度大多分布在0.6-0.8区间段。在对各方法所计算出的专利相似度进行标准化处理后,比较结果之间的相关性,确认结果之间无强相关关系之后将其融合。通过精确率,召回率,F值,MAP值评价各相似度。发现通过信息融合之后的专利相似度在精确率,召回率,F值上都有提高,在MAP值上并无提高。最后在上述研究和实证的基础上,总结了本文的结论和展望,以期提升相似度计算效果。