论文部分内容阅读
随着社会的不断进步,各领域的科技创新取得了空前的成果,大量专利文献也随着这些新技术产生和积累,专利文本的挖掘工作逐渐成为对技术发展的决策制定举足轻重的必要工作。随着专利数量的爆炸式增长,海量的专利数据由人工提炼耗时耗力,甚至已经超越了人的处理极限,大量自动化挖掘热点研究话题的智能分析系统应运而生。然而,传统的文本挖掘方法大多以单独的关键词来描述概念,存在着不够具体、引起歧义以及无法区别同义词造成的主题意义差别等限制,且需要利用先验的专家词库进行预处理,并不能根据数据集本身的特点无监督地实现关键词的筛选和排序。本文针对上述问题,将主题模型应用在专利热点挖掘领域,建立起专利热点挖掘的系统框架,通过算法设计和各种关键技术,以无监督方式实现了特性损失词的识别与消除以及专利热点的挖掘。具体地,本文的主要贡献和创新点如下:(1)提出了面向摘要及权利要求的语义主题发现及分析方法—基于词语权重的隐含狄利克雷模型(Term Weight based Latent Dirichlet Allocation,TW-LDA),通过引入词语权重,以无监督方式实现了主题发现及对特性损失词的识别与消除。(2)提出了一种改进的基于专利主题向量的聚类算法PTVOM(Patent Topic Vector based OPTICS withMedoids),该算法利用 JS(Jensen-Shannon)距离作为专利的相似度度量,通过选取专利集中最具代表性的n个主题,在这n个主题所在维度对专利集采用OPTICS算法结合k-medoids规则对专利进行聚类。(3)构建并实现了专利热点挖掘的系统框架,实现了包含数据采集、数据提取、数据清洗、主题发现、热点统计等步骤的完整分析流程。(4)采用来自美国专利与商标局(United States Patent and Trademark Office)的实用新型专利进行实验,实验结果表明,本文提出的TW-LDA模型和PTVOM算法相比其它常见算法,效果有所提升。最后,我们对热点挖掘结果进行了可视化展示。