基于LDA模型的专利文本分类及演化研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:yufengdong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文献是技术情报的载体,它的文本中隐藏了大量的技术情报信息,是技术情报消息的最佳情报来源。随着新中国的快速发展,我国专利的申请数量已在逐年升高,至2016年已经连续第五年蝉联全球专利申请量之首。因此,对于这些海量专利文献的信息挖掘技术的研发,已成为国家和企业研究的共同热点。LDA模型是典型的概率主题模型,目前已广泛应用在自然语言处理、数据挖掘和人工智能等领域,用来分析文本的分类和演化问题。其中概率主题模型很少应用在专利文本的相关研究中,故本文在现有专利文本信息挖掘技术框架的基础上,采用LDA模型对专利文本进行分类及演化研究,本文具体的研究内容如下:(1)首先概述几种传统的概率主题模型并对它们作简要的叙述,再对本文算法应用的LDA模型进行详细的描述,介绍其的相关数学概率分布和参数推断算法,最后回顾专利文本中的一些典型的分类算法和演化分析方法。(2)针对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。(3)运用概率主题模型全面研究专利文献主题演化,发现专利技术发展趋势。LDA模型按时间窗口对专利文本建模,困惑度确定最优主题,按专利文本结构特性提取主题向量,采用JS散度度量主题之间的关联,引入IPC分类号计算技术主题强度,最后实现主题强度、主题内容和技术主题强度三方面的演化研究。实验结果表明该方法可以较好地分析专利技术随时间的演化规律及趋势。该方法能够深入挖掘专利文献的主题,帮助相关从业人员了解专利技术的演化过程及趋势。
其他文献
移动健康监测作为新生事物,能够在医疗资源相对有限的社会环境里及时而有效地向用户提供价格低廉的医疗保健服务。生命信息处理已经成为一个崭新的尖端综合性研究领域。开发和
随着3G时代的到来,3G无线通信网络及相关技术的日臻成熟,一方面各类面向富客户端的应用异军突起,炫酷新颖的移动增值服务不断推出,极大提升了用户的体验。另一方面,这些应用服务对
信息数据在现代生产和生活中越来越重要。数据仓库被大型企业及政府广泛用于存储和处理大规模数据。OLAP联机分析处理成为数据仓库处理数据的一种有力工具。OLAP技术能够对数
近年来,随着基因测序技术的发展,人们能够获得越来越多生物体的基因组,然而这些基因组并不完整。不完整的基因组被称为基因组框架。在很多计算生物学研究领域,无法直接使用基
虚拟计算系统是基于虚拟化技术构建起来的新一代计算系统,是对传统计算理论和模式的一次重要创新。它通过引入虚拟机管理器层,消除了底层硬件体系结构和上层系统软件之间的紧密
随着信息技术的飞快发展,网络逐步成为一个巨大的数据源,其中包含了众多有价值的信息。这些信息很多是关于已经或正在发生的各类事件的,例如普遍存在于各大网站上的国家政府
学位
学位
全局优化技术的应用领域非常广泛,许多实际工程优化问题都能归结为全局优化问题进行求解,这就极大地促进了全局优化技术的兴起和发展。而非线性优化是优化领域内比较难以求解的
现在图像处理被应用到了很多行业中,如军事武器系统和医疗影像系统,因此图像处理变得越来越重要。图像分割技术是图像处理众多关键技术中的一种,起步于上个世纪七十年代,到目