论文部分内容阅读
专利是知识产权中重要的一种表现形式,对海量专利数据进行深入挖掘得出技术信息,有助于促进知识产权的保护和专利的再创新。文本主题模型属于数据挖掘中的重要部分,应用于不同领域的主题信息提取。目前专利分析领域中,专利技术主题通过主题模型对专利文本直接进行主题提取获得,会导致提取的主题信息过于杂乱,不能很好的表达主题含义以及不能获取细粒度的技术主题等问题。专利的国际专利分类(International Patent Classification,IPC)号代表专利的技术领域,蕴含了专利的技术信息,因此本文使用IPC结合传统主题模型进行专利文本的主题提取,能够更准确且清晰的获取专利技术主题信息,并将挖掘出的技术主题信息应用到专利技术演化中,使研究人员更好的了解某领域专利的发展状况。本文从专利全局技术演化角度、专利细粒度技术演化角度的主题挖掘方法和专利技术主题演化分析可视化系统三个方面展开研究。本文的主要工作如下:(1)从专利全局技术演化角度,针对传统技术主题提取方法存在提取出的主题信息含义不明显的问题,提出了基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的专利主题挖掘算法。该算法利用IPC分类号对文本集进行初步划分,然后用LDA主题模型对划分后的文本集分别进行主题提取并合并相似主题,得到主题信息结果,最后通过实验验证了该方法相比于其他传统主题挖掘方法在表达主题含义和准确性方面有更好的表现。(2)从专利细粒度技术演化角度,针对传统技术主题提取方法不能获取细粒度的技术主题信息问题,提出了基于部分标记的狄利克雷分配(Partially Labeled Dirichlet Allocation,PLDA)的专利主题挖掘算法。该方法设置不同IPC分类号层级作为专利标签,使用PLDA模型对专利文本进行主题挖掘,获取IPC分类下不同层级的主题信息,通过实验验证了该方法相比于其他传统主题挖掘方法在细粒度表达主题含义和准确性方面有更好的表现。(3)为了方便研究人员对专利进行可视化分析,提出了基于主题模型的专利技术主题演化分析可视化系统,包括数据采集模块、主题挖掘演化模块等。本文从全局视角和IPC分类号视角两个方面进行主题信息的挖掘和演化分析,并通过可视化技术展示专利技术主题演化情况,能够帮助研究人员全面的了解某领域专利的技术主题发展趋势,为其进一步对专利研究提供了基础。