KEC:基于cw2vec的中文专利关键词提取方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:zx350220519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能。以中文专利为研究对象,针对专利文本的特点,将关键词提取问题转换成词向量聚类问题,提出了一种基于cw2vec词向量的关键词提取方法,称为KEC。该方法首先利用科技文献的关键词以及开源词典构建领域词典;接着,基于领域词典对专利文本进行预处理获取候选关键词,并采用构建cw2vec模型获得候选关键词的词向量表示;最后,采用聚类算法提取最终的关键词。在真实的专利数据集上进行了实验验证,结果表明KEC在精确率、召回率、综合指标F1等指标项上
其他文献
随着网络技术、计算机技术的发展,城建档案馆长期采用的"封闭"、"坐堂服务"等传统运营模式已难以满足社会各方对城建档案的利用需求。为适应未来社会的发展潮流,冲破自我封闭
Quantum chemical calculations on some possible equilibrium geometries of C24O2 isomers derived from C24 (D6) and C24O have been performed using density function
迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN并引入attention机制,提出一种Text-CRNN+attention模型用于文本分类。首先利用CNN处理局部特征的位置不变性,提取高效局部特征信息;然后在RNN进行序列特征建模时引入attention机制对每一时刻输出序列信息进
为了提高遥感图像的实时分类准确率与效率,提出了一种基于蚁群优化算法与独立特征集的遥感图像集实时分类算法。首先,提取遥感图像的小波域特征与颜色特征,并且组成特征向量;然后,采用蚁群优化算法对特征空间进行优化,独立地选出每个分类的显著特征集,从而降低每个子特征空间的维度;最终,每个分类独立地训练一个极限学习机分类器,从而实现对遥感图像集的分类。基于公开的遥感图像数据集进行了仿真实验,结果显示本算法实现
针对蛋白质相互作用(protein-protein interaction,PPI)网络中存在大量噪声以及现有关键蛋白识别方法准确率不高等问题,提出了一种基于中心性和模块特性(united centrality and modularity,UCM)的方法来识别关键蛋白质。首先,整合蛋白质拓扑数据和生物数据构建多元属性网络,以降低PPI网络中噪声的影响;其次,根据关键蛋白质的拓扑特性和生物特性,提
目的研究甲基强的松龙在重型颅脑外伤病例上的应用,进一步认识该药品的疗效及其安全性。方法选择符合急性重型颅脑外伤(GCS评分3~8分)的病人74例,给予大剂量甲基强的松龙冲击治疗(
压缩比是发动机的重要技术参数之一,其直接决定发动机的热效率、排放,并对发动机功率和扭矩的输出有着重要的影响。变压缩比发动机不仅具有良好的燃料适应性,提高发动机的热
本文较詳细地介绍了肌醇的性质、制备、应用和经济效益。
目的 观察比较硬膜外麻醉剖宫产手术,产妇取左侧倾斜30。(或垫高产妇右髋部)时体位对循环的影响。方法 40例剖宫产手术患者,ASAI~Ⅱ级,随机分为A组20例,B组20例。入室后,即建立上肢静
首先介绍变压器的故障种类和监测方法,提出基于DGA的变压器状态监测与故障诊断的方法,阐述该方法原理及主要的监测和诊断方法,系统组成,分析技术的发展趋势,为变压器故障诊断