专利热点挖掘方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:britney0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的不断进步,各领域的科技创新取得了空前的成果,大量专利文献也随着这些新技术产生和积累,专利文本的挖掘工作逐渐成为对技术发展的决策制定举足轻重的必要工作。随着专利数量的爆炸式增长,海量的专利数据由人工提炼耗时耗力,甚至已经超越了人的处理极限,大量自动化挖掘热点研究话题的智能分析系统应运而生。然而,传统的文本挖掘方法大多以单独的关键词来描述概念,存在着不够具体、引起歧义以及无法区别同义词造成的主题意义差别等限制,且需要利用先验的专家词库进行预处理,并不能根据数据集本身的特点无监督地实现关键词的筛选和排序。本文针对上述问题,将主题模型应用在专利热点挖掘领域,建立起专利热点挖掘的系统框架,通过算法设计和各种关键技术,以无监督方式实现了特性损失词的识别与消除以及专利热点的挖掘。具体地,本文的主要贡献和创新点如下:(1)提出了面向摘要及权利要求的语义主题发现及分析方法—基于词语权重的隐含狄利克雷模型(Term Weight based Latent Dirichlet Allocation,TW-LDA),通过引入词语权重,以无监督方式实现了主题发现及对特性损失词的识别与消除。(2)提出了一种改进的基于专利主题向量的聚类算法PTVOM(Patent Topic Vector based OPTICS withMedoids),该算法利用 JS(Jensen-Shannon)距离作为专利的相似度度量,通过选取专利集中最具代表性的n个主题,在这n个主题所在维度对专利集采用OPTICS算法结合k-medoids规则对专利进行聚类。(3)构建并实现了专利热点挖掘的系统框架,实现了包含数据采集、数据提取、数据清洗、主题发现、热点统计等步骤的完整分析流程。(4)采用来自美国专利与商标局(United States Patent and Trademark Office)的实用新型专利进行实验,实验结果表明,本文提出的TW-LDA模型和PTVOM算法相比其它常见算法,效果有所提升。最后,我们对热点挖掘结果进行了可视化展示。
其他文献
二茂铁作为燃速催化剂可以很好地改善端羟基聚丁二烯(HTPB)/高氯酸铵(AP)复合固体推进剂的燃烧性能。目前商品化的烷基二茂铁类燃速催化剂由于分子量小,添加了它们的HTPB/AP
紫杉醇作为抗癌抗肿瘤药物,已受到各国研究者的广泛研究。紫杉醇的来源主要有从植物组织中分离提取、化学全合成和半合成。目前,市面销售的紫杉醇主要来源于红豆杉植物提取,
电响应水凝胶在外界电场作用下,自身物理、化学性质会发生变化,其最大特点是将电能转换为机械能。为了制备具有高电响应性能的水凝胶,本文选择含大量羟基的可溶性淀粉为原料
本试验针对近年来连作和过量施肥导致延安烤烟产量和品质下降的问题,设置饼肥、腐殖酸肥料和生物有机肥三个不同的土壤改良方案,以期恢复延安烟田土壤品质。布设大田试验,在
大豆是我国重要的粮食作物之一。大豆皂苷是大豆籽粒中重要的次生代谢产物之一。越来越多的研究表明大豆皂苷具有多种对人体有益的功能,受到人们的重视。为了解析大豆籽粒发
端粒酶是一种核糖核蛋白逆转录酶,主要功能是合成端粒重复序列。在大部分肿瘤细胞中端粒酶活性呈阳性表达,因此,科研工作者将其视为一种肿瘤标识物,并对此进行了广泛的研究。
在传统社会发展观的影响及旧的技术创新价值评价体系的支配下,我国桥梁技术创新主体片面追求经济效益或新闻效应,致使桥梁建造过程中出现了如下非生态问题:一是为追求桥梁建
北祁连造山带位于祁连地块和阿拉善地块之间,被认为是典型的早古生代增生型造山带。祁连地块北缘是整个祁连造山带的重要组成部分,其构造属性对于揭示早古生代祁连造山带的构
螺杆泵是一种内啮合的容积式泵,与其他类型泵相比具有诸多不可替代的优点,广泛适用于石油、化工和污水处理等行业。随着其应用范围越来越广,对螺杆泵的振动要求也越来越严格,
京剧是我国的“国粹”,自四大徽班进京至今已有二百多年的发展历史。京胡作为京剧文场主要伴奏乐器中三大件之一,长期处于伴奏地位。自上世纪八十年代起,作曲家与演奏家开始