产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析

来源 :知识管理论坛 | 被引量 : 0次 | 上传用户:dsfgsdfwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:[目的/意义]在产业链视角下,以虚拟现实技术为例,构建VR专利产业链语料库,挖掘中国VR专利的技术主题、研发热点和未来发展趋势。[方法/过程]首先,利用Python爬取VR领域的专利文本,通过数据清洗得到有效语料库;然后,结合IPC分类号和K-means聚类算法,构建并验证VR专利产业链;最后,基于TF-IDF算法和LDA主题模型,识别出产业链视角下中国VR专利的核心技术主题及其综合强度、技术研发热点和未来趋势。[结果/结论]当前中国VR产业链各环节的专利比例不均衡,上游研发最热门,其次是下游应用,最薄弱的是中游制作。主题挖掘方面,上游热点为软件研发,中游热点为影视制作,下游热点为医疗、教育、娱乐应用。未来趋势方面,产业链上游将以电数字数据处理、光学元件、图像通信等技术为主流,中游将以车辆部件、动力装置、减振装置等技术为主流,下游将以室内游戏、医学诊断、鉴定等技术为主流。
  关键词:K-means聚类算法   LDA主题模型  技术主题演化  文本挖掘  VR(虚拟现实)
  分类号:G250
  DOI:10.13266/j.issn.2095-5472.2020.013
  引用格式:陈玲, 林平, 段尧清. 产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析 ——以虚拟现实技术为例[J/OL]. 知识管理论坛, 2020, 5(3): 135-146[引用日期]. http://www.kmf.ac.cn/p/208/.
  1  引言
  专利是衡量科学技术发展的重要指标,专利内容挖掘是提高科学技术竞争力的主要途径之一。专利内容挖掘涉及专利分类、专利聚类、主题识别、技术趋势分析等方面,其中专利技术主题分析是其研究的核心所在。专利技术主题分析聚焦于识别专利文本的主题(如对主题进行分类、构建主题间的相互关系、预测主题的发展趋势等),对技术研发内容具有高度的概括性和代表性[1]。随着深度学习和机器学习的兴起,文本挖掘被越来越广泛地应用在技术专利主题分析中,其中以LDA(Latent Dirichlet Allocation)主题模型尤为突出。专利技术主题分析方法主要是抽取专利文献标题、摘要及技术要点中的技术特征词,利用文本挖掘方法选择获得主题词,建立主题词之间的共现关联关系,从而聚类获得技术主题[2]。专利技术主题分析常用的方法包括:①利用专利的分类属性作为其技术主题;②通过专利共现网络和引用关系为专利聚类;③使用SAO(subject -action -object)结构语义相似度识别、主题模型或主题聚类等方式从专利等科技文献中挖掘技术主题;④借助技术主题的时间信息,使用时间序列分析等方式预测技术主题演化趋势[3]。
  在信息技术快速发展的知识经济时代,虚拟现实作为战略新兴技术的代表,涉及通信、互联网、新媒体等多个领域,具有突出的跨界融合性与技术交叉性,有望引领新一轮技术的变革。众多科技新兴企业均在VR领域积极布局,主要科技大国也均把VR列为战略新兴领域,中国在国家“十三五”规划纲要、G20工商峰会上的重要讲话中提出要发展人工智能和虚拟现实等技术,大力支持虚拟现实(VR)等新兴前沿领域创新和产业化,建设创新型世界经济[4-8]。在产业链视角下,深度挖掘中国VR领域的专利技术主题、技术热点与发展趋势,可以分别从宏观、中观和微观不同的角度对政府、产业和企业提供不同的情报服务,在此基础上制定相应的竞争战略;有助于相关政府部门、VR科研机构和企业等主体在中国和全球范围内更好地进行专利布局,为中国VR产业发展提供参考建议,最终提高中国VR领域的整体产业竞争力。
  2  相关研究
  2.1  虚拟现实
  虚拟现实是以计算机技术为核心,生成与现实环境在视、听、触感等方面高度近似的数字化环境。用户借助相关设备与虚拟环境中的对象进行交互,从而产生真实环境的感受和体验。目前关于虚拟现实的研究主要集中在技术研究[4-5]、系统研究[6-7]、应用研究[8]3个方面:①虚拟现实技术研究。学者主要从立体显示技术[9]、传感器技术[10]、三维图形生成技术[11]等方面将虚拟和现实环境进行混合、实时交互、三维注册。②虚拟现实系统研究。主要分为硬件研究和软件研究,硬件研究包括三维跟踪定位设备、人体运动捕捉设备、触觉力觉反馈设备等的研究[12];软件研究包括数据库研究[13],三维动画、网络场景等应用软件研究[14],基于Vizard软件、Virtools软件、EON软件等的虚拟现实开发平台研究[15]。③虚拟现实应用研究。随着技术不断地进步与成熟,虚拟现实技术逐渐被应用到教育[16]、医疗[17]、图书馆[18]、博物馆[19]等不同场合,从而为人们的生产、生活、学习带来巨大的影响与冲击。
  2.2  基于文本挖掘的专利技术主题分析
  技术主题分析是文本挖掘在专利分析中的重要应用之一。目前已有较多利用文本挖掘方法进行专利技术主题分析的研究成果,依次包括詞频统计分析、共词分析、文本聚类分析、文本挖掘技术与引文聚类相结合的技术主题分析[20]。①基于词频统计的技术主题研究。主要是通过IPC分类号、高频词等的统计分析,研究某技术领域的主题分布情况[21]。②基于共词分析的技术主题研究。主要包括共词网络分析、共词聚类分析和战略图分析3种方法,可以比较客观地揭示技术领域中的各技术主题及技术主题之间的相互关联[22-23]。③基于文本聚类的技术主题研究。主要是对专利进行聚类,形成代表技术主题的多个聚簇;为每个聚簇生成主题词,从而直观有效地表示技术主题的分布情况[24]。④基于文本挖掘与引文聚类相结合的技术主题研究。主要从文本信息与引用信息的底层融合角度,分析技术研究热点、识别新兴技术主题、预测技术主题的发展趋势[25]。   2.3  基于LDA主题模型的专利技术主题分析
  基于LDA模型的专利技术主题分析主要分为两类,一类是直接采用传統的LDA模型分析专利文本构成的语料库,如对专利领域技术信息进行主题划分、测量与分析专利丛林[26],挖掘专利领域的技术及其继承关系[27]。另一类是根据特定的分析目的或专利信息的结构特征对LDA模型进行改进或拓展,如构建基于SAO结构、P&S模式的LDA主题模型[1],提出结合LDA和HMM的组合方法[3],构建基于IPC和WI结构的WI-LDA模型[28]等,分析某一专利领域的技术主题分布,识别和预测专利领域的核心技术、演化规律及未来趋势。
  2.4  文献述评
  已有文献中,关于专利技术主题的分析,多将专利文本视为统一整体进行文本挖掘,或者按照专利标题、专利关键词、专利正文等不同视角,进行主题挖掘,较少结合专利的产业链特性进行技术主题分析。而关于产业链视角下的相关专利分析,在产业链构建方面均是通过经验判断等定性研究方法进行专利挖掘,且多从专利数量、专利类型、地域分布、核心申请主体等角度出发,进行专利分布研究,未结合专利文本进行技术主题的深度挖掘。在此背景下,本研究从产业链视角出发,以VR技术为例,利用专利的IPC分类号构建专利产业链,并通过K-means聚类验证产业链,能够为专利领域产业链研究提供新的研究视角;基于产业链语料库,采用TF-IDF算法和LDA主题模型,深度挖掘中国VR领域的专利技术主题、技术热点与发展趋势,能够为专利领域技术研究提供新的研究思路、为VR领域扩展研究内容。
  3  研究设计
  3.1  研究框架
  以中国VR专利的相关数据为原始语料库,在归并处理、噪音清除、加工分组等数据清洗的基础上,得到有效专利语料库。基于有效语料库,进行文献调研和专家咨询,利用专利的IPC分类号和K-means聚类算法,构建并验证VR专利产业链,得到基于IPC编码和聚类的产业链语料库。基于产业链语料库,进行文本分析,利用TF-IDF算法计算关键词权重,利用LDA主题模型挖掘各环节的技术主题及主题词权重,识别产业链视角下的核心技术主题及其主题强度,分析中国VR专利的技术研发热点和未来趋势。具体研究框架如图1所示:
  图1  研究框架
  3.2  数据采集
  本文的目标数据库确定为国家知识产权局的官方专利检索系统,检索式设定为:发明名称=(虚拟现实 OR VR OR virtual reality) OR 摘要=(虚拟现实 OR VR OR virtual reality) OR 关键词=(虚拟现实 OR VR OR virtual reality),检索时间为2019年5月10日, 在过滤条件中勾选“有效专利”复选框,获得有效专利14 372件。目前中国常用的专利信息源包括:中华人民共和国国家知识产权局的官方专利检索系统、国家知识产权出版社主办的中国知识产权网的专利检索系统、中国专利信息网专利检索系统、北京市经济信息中心易信网的专利检索系统等[29]。其中,国家知识产权局的官方专利检索系统是检索中国专利的官方网站,最具有权威性,其数据收录主体范围涵盖广泛,收录数据信息类别全面,数据更新频率较高且更新时间具有周期性和规范性。
  3.3  数据清洗
  对检索得到的专利数据进行去重、筛选和加工,简要说明如下:①归并处理。对同一专利权人在不同的专利记录中可能登记有不完全相同的名称,进行归并处理。②噪音清除。阅读并删除与所检主题不相关的专利数据,对语料库依次进行大小写转换、去标点、去数词等去噪处理。③加工分组。根据专利固有格式与领域特点,对采集的数据进行加工、分组,建立符合研究需要的专题子数据库[30]。最终确定12 380件专利数据用于构建VR(虚拟现实)领域有效专利语料库。
  其中,去噪是尤为关键的环节,主要包括分词和去停用词两部分。据此,本文将专利摘要内容整合在TXT文档中作为文本信息,在Python语言环境下,对每一条摘要数据进行分词、去除停用词。分词使用Python中的专业分词模块jieba,选择精准模式将句子尽可能精确切分,并将“外观设计”“实用新型”“发明专利”等具有代表性意义的词组添加到自定义词典,避免关键词汇被拆分,影响后续文本分析。分词完成后利用停用词表将分词后的数据进行进一步的清洗,过滤分词结果中的噪声。自定义的主要停用词包括“ 虚拟现实”“VR”(因本文研究虚拟现实领域专利,为避免“虚拟现实”“VR”出现频率过高影响其他高频词的凸显,故将其停用)、“所述”“提供”“包括”“用于”“省略”“涉及”“获取”“建立”“选择”“要点”“特征”“连接”“之间”“步骤”等,表1随机列举了4条专利摘要原文及其对应的分词结果。
  3.4   研究指标
  专利情报分析是在对专利情报进行筛选、整理的基础上,利用统计方法和手段,对其中所含的各种情报要素进行统计、排序、对比、分析和研究,从而了解技术发展的过去和现状。通常来说,专利情报分析主要有两种:定量分析和定性分析。定量分析是指对专利文献的外部特征按照指定的指标进行统计,再对收集到的数据进行解释和分析;定性分析则是通过对专利的内容进行技术归纳,得出有效的分类和结论[31]。本文的专利研究指标及其作用具体如表2所示:
  4  结合IPC分类号和K-means算法的VR专利产业链分析
  已有文献在构建产业链方面均是基于人为定义、解读,划分上中下游各个环节。本文则是将VR相关的全部专利检索获得后进行数据清洗(保证了专利产业链的检全率),基于IPC分类号划分上中下游,并基于K-means算法进行上中下游的二次验证(保证了专利产业链的准确率)。   4.1  基于IPC分类号的专利产业链构建
  依据文献调研、专家咨询和专利的IPC分类号,将虚拟现实产业链分为工具/设备设计、内容制作、行业应用。在此基础上,选取专利的IPC分类号作为语义情景的限定,为所有专利赋予产业链语义。在提取IPC分类号时,不同的IPC层级会产生不同的聚类效果。基于IPC大类的划分过于粗泛,聚类效果不明显;基于IPC大组的划分过于密集,同样不适合聚类;而基于IPC小类的划分,能够在区分度明显的基础上保证规模不过于巨大,因而最终选定以主IPC分类号小类作为语言情景的限定。为了研究过程的简易性及结果展示的直观性,将专利数据涉及的产业链与IPC小类进行编码,部分编码分布情况如表3所示。其中,产业链上游为“工具/设备设计”,产业链中游为“内容制作”,产业链下游为“行业应用”。
  4.2  基于关键词聚类的专利产业链验证
  研究采用K-means算法验证已构建的专利产业链。首先,合并“同类关键词”。通过人工观察,将包含“本发明”“本发明专利”“本专利”等数据的关键词,统一合并为“发明专利”。其次,采用K-means算法中的欧氏距离来计算数据对象间的距离。根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。
  VR专利摘要文本的K-means聚类效果如图2所示。依据产业链的分类特性和已有关于产业链划分的研究文献可知,专利产业链通常划分为上、中、下3类[32]或基础、技术、应用3类[33-34]。据此,研究将类簇个数K值设定为3,将专利文本聚集成3类主题。从图2中可以看到3个类簇有效地分隔开来,相似主题的文献聚集在一起,文本聚类效果较好。其中黄色表示“工具/设备设计”主题,紫色表示“行业应用”主题,绿色表示“内容制作”主题;且“工具/设备设计”专利聚类数量>“行业应用”专利聚类数量>“内容制作”专利聚类数量。观察聚类结果可知,“工具”“设备”等关键词聚为一类,划分至“工具/设备设计”专利类别;“游戏生产”“声音生产”“视频生产”等关键词聚为一类,划分至“内容制作”专利类别;“医疗应用”“教育应用”“旅游应用”等关键词聚为一类,划分至“行业应用”专利类别。基于关键词聚类的VR专利产业链验证结果,与上文中基于IPC分类号的VR专利产业链构建结果具有一致性。据此,根据产业链的构建和验证结果,对中国VR专利进行分类,构建产业链语料库。
  5  产业链视角下中国VR专利的技术主题与趋势分析
  5.1  基于TF-IDF算法的技术关键词挖掘
  为了避免LDA主题分析抽取出的特征词汇不具主题代表性,研究首先使用TF-IDF算法对所得词汇赋予不同权重,有效过滤常见词汇,保留重要词汇,进而提高主题特征词的抽取准确率。TF-IDF是一种计算词语权重的经典统计方法,由词频(term frequency,TF) 和逆向文档频率(inverse document frequency,IDF) 两部分数据组成。TF-IDF的计算如公式(1)所示,其中,tfi,j代表词语wi在文档dj中出现频率,idfi代表词语wi在文本库d中的逆向文档频率。通过公式可以看出,词语wi对文档dj 的重要程度和它在文档dj中出现的频率成正比,和它在整个文本库dj中包含词语wi的文档数成反比。
  依照产业链语料库数据和编码分词,在Python中提取摘要文本关键词;整合相似的文本数据,删除无实际作用的字段,根据TF-IDF算法计算关键词权重。TF-IDF算法是通过计算特征词在整个文本库中出现的总频率,从而标记出关键词的重要程度。产业链各环节中国VR专利摘要文本的高频关键词及权重计算结果如表4所示,可以看出“发明专利”类型在产业链上、中、下游的比重均较大。此外,产业链上游“工具/设备设计”中“发明专利”类型占比较大,产业链中游“内容制作”中“外观设计”类型专利占比较大,产业链下游“行业应用”中“实用新型”类型专利占比较大。
  5.2  基于LDA模型的技术主题词挖掘
  在基于LDA模型的主題挖掘中,最佳主题数目的确定是最为关键的一步,本文使用Gibbs采样的方法推断LDA模型中所涉及的多个分布。首先,充分参考虚拟现实产业链环节数量后, 将各个环节的输出主题数目初步确定为3-10个,对LDA模型进行训练。其次,通过计算模型困惑度Perplexity来判断模型的好坏,从而确定该模型的最佳参数,即使用不同数量的主题分别建模,随机将语料库划分为训练集与测试集,训练集和测试集比例为8:2。最后,通过计算困惑度10次结果的平均值将产业链上游的最佳主题数目确定为4个,将产业链中游的最佳主题数目确定为3个,将产业链下游的最佳主题数目确定为7个。
  通过充分了解该领域的技术知识,对中国虚拟现实领域专利进行技术主题标注,确定主题名称。某种程度上,使用LDA主题模型挖掘到的主题可视为从技术链角度对虚拟现实技术进行细分,如表5所示。由表5可以看出,每个主题之间的区分非常明显。产业链上游——“工具/设备设计”的4个主题分别为输入设备、显示设备、拍摄设备、软件;产业链中游——“内容制作”的3个主题分别为影视、声音、游戏;产业链下游——“行业应用”的7个主题分别为房地产、旅游、工业、军事、医疗、教育、娱乐。
  5.3  产业链视角下的技术主题强度与热点分析
  经文献研究与小组讨论认为,产业链视角下技术主题强度的衡量指标主要包括:产业链各环节的专利数量权重与专利文档概率。其中,产业链各环节的专利权重为上、中、下游专利数量在总专利数量中的占比,文档概率为上、中、下游产业链视角下各主题的隶属概率值。产业链视角下各技术主题的综合强度计算如公式(2)所示:
  TIi为第i个主题的综合强度。其中,i为专利的15个主题(i=1,2,3,……,14),p为这14个主题分别对应的三个产业链环节(p=1,2,3)。LDAi为第i个主题的LDA权重值,nip为第i个主题所对应的第p个产业链环节的专利数量,为第p个产业链环节的专利数量
其他文献
编者按:人们常说:商场如战场。面对风云诡谲的市场变化、突飞猛进的技术发展、日新月异的社会变迁,任何企业在快速成长的过程中,都不会是一帆风顺或一劳永逸,而是需要时时面对各种竞争、挑战和问题。在这种情形下,企业要想赢得竞争并保持基业长青,就需要像在战场上掌握和运用兵法一样,掌握一系列的前进策略和问题解决之道。  自20世纪90年代以来,“知识管理”已经成为企业界重要的管理工具之一。随着越来越多的中国企
期刊
【摘要】  学士学位论文仓储的基本形式是论文题录库、优秀论文全文库合二为一。建立完善、稳定的学士学位论文数据采集链,是构建学士学位论文仓储的必要前提。区域性优秀学士学位论文全文数据库具有较强的建设价值,做好包括建设目标、合作框架、合作平台、建设标准等内容在内的项目顶层设计至关重要。开放获取是学士学位论文仓储发展的必然趋势,采用开放存取模式建设学士学位论文仓储,须结合相关法律和开放存取政策等进行有效
期刊
摘要:通过问卷调查、归纳、演绎和比较分析,探讨大学生使用移动搜索的特征、所用移动设备的性能、对智能手机应用程序的使用情况、利用手机搜索引擎等方面对用户体验的影响,并对手机搜索存在的问题提出优化建议。认为手机搜索速度慢、准确性差严重影响了搜索体验,多开发社交软件有助于提高用户体验。  关键词:移动搜索 智能手机应用程序 特征因子  1 引 言  移动搜索是通过移动通信与互联网的对接,将网页内容转换为
期刊
编者按:2010年以来,一位来自海峡对岸的老师开始出现在大陆企业知识管理界和培训界的视野之中:他用一双冷静的眼和一颗热情的心关注着大陆知识管理的腾飞,他带着“跨界思维”跨越海峡,为大陆知识管理研究与实践带来全新的视角,仿佛带来一缕来自太平洋的清新海风,为我们不断拓展着知识管理的“宽度”;他从智慧层面关照知识,从时代、从世代、从社会进步、从人生进化的角度认识知识管理,为我们不断提升着知识管理的“高度
期刊
对国内外网络视频公开课的发展历程、现状、运行模式等进行阐述,对国内外网络地球科学学科视频公开课进行统计分析,并结合地质图书馆现状提出建设地学视频资源库的设想,探讨地学网络视频建设的关键性问题和实施方案。
期刊
摘要:[目的/意义] 从个体角度分析团队成员之间的合作关系,揭示科研团队的内部合作特征,为科研团队的遴选、建设和成果验收提供依据。[方法/过程]分别在成果数量和合作人数这两个维度上对团队成员进行切分,在第一个维度上切分出零产成员和高产成员,在第二个维度上切分出孤立成员和活跃成员,然后以39个国家自然科学基金创新研究群体为样本,分析零产成员和孤立成员的数量,以及学术带头人与高产成员、活跃成员的关系。
期刊
>>【摘要】  指出网络化、信息化给图书馆事业发展带来了新的挑战,管理转型是城市图书馆适应新生存环境的重要出路。以东莞图书馆的具体做法为例,分析城市图书馆管理转型的主要内容,包括战略管理、流程管理、绩效管理三个主要方面,并且提出了一些问题与思考。  >>【关键词】  网络信息环境 城市图书馆 管理转型 东莞图书馆 战略管理 流程管理 绩效管理  1 城市图书馆面临的网络信息环境  1.1 信息化浪
期刊
【摘要】  借鉴社会网络理论方法,基于显、隐知识流向分析,提出一种跨组织协作中知识缺口和显、隐知识平衡的量化分析方法,通过构建跨组织显、隐知识流对比矩阵,从个体和群体两个层面对跨组织知识缺口和显、隐知识流平衡状况进行度量分析,指导跨组织协作和知识共享的改进。最后通过一个案例验证此方法。  【关键词】  跨组织协作 知识缺口 显性知识 隐性知识 知识流 知识共享  为了应对日益开放和复杂的商业环境,
期刊
摘要:[目的/意义]突发公共卫生事件嚴重危及全球社会公众的生命健康。实现信息资源对突发事件的智能存储、查询和知识组织与输出等,对应急领域科研数据集成共享与领域知识管理具有重要的参考意义。[方法/过程]选取CNKI和WOS为检索平台,对突发公共卫生事件进行检索,爬取有效数据,利用文献计量软件对抽取的知识数据进行加工、融合,并对高频词汇、文献作者和机构进行聚类可视化分析,将知识实体、属性及关系存储于N
期刊
【摘要】以问卷方式调查英国谢菲尔德大学中国留学生的检索信息习惯与偏好、存在的问题和对多语言信息存取功能的需求。结果发现他们对翻译工具依赖性较强,相比生成英文检索词,对检索结果的阅读和理解更困难些;总体上,留学生对多语言信息存取功能的需求不是很强烈,较专业和较准确的翻译工具对提高信息利用的效率会有很大帮助。  【关键词】多语言信息存取 跨语言信息检索 数字图书馆 留学生  1前言  多语言信息存取(
期刊