面向非平衡数据的文献分类标引方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:shanxiaoqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有文献的分类标引多采用《中图法》。在文献出版量飞速增长的背景下,完全依靠人工进行文献标引已经不可行,通过文本自动分类算法实现机器标引变得非常必要。然而,中图分类体系下存在数据不平衡现象。这影响了现有分类算法的性能,难以达到理想的标引效果。
  为改善非平衡数据下分类标引的效果,从数据层面与算法层面相结合的角度提出一种标引方法。在数据层面上,利用LSTM模型为少数类补充样本数据。该方法首先利用类名和注释构建初始类目语义表征词,然后基于表征词的平均词向量扩充表征词并构建类目语义分布,最后从类目语义分布中采样一个词作为起始词,使用LSTM模型迭代地生成特定长度的文本,并将生成的文本补充到少数类的训练集中。在算法层面上,提出一种基于卷积神经网络的Stacking集成方法,该方法首先划分交叉验证集,然后在每一折的训练集上训练基分类模型、在验证集上得到基分类模型输出的分类标签概率分布,最后堆叠基分类模型输出的分类标签概率分布,并将概率分布作为卷积神经网络的输入进行模型训练,得到融合分类模型。
  以中图类目G4(教育)下的21个三级子类为例对提出的方法进行实验验证。实验结果显示,与基分类模型相比,分类标引的宏观查全率提高5%,宏观F1提高3%;与不考虑非平衡数据的基线模型相比,分类标引的宏观查全率、宏观查准率和宏观F1均提高30%左右。其中,与不增加样本的情况相比,在类目间语义相似度不高的多分类任务中,数据层面方法可有效提升少数类的查全率,且不会大幅损失多数类的查全率,同时宏观查全率或宏观F1提高1%。数据层面方法在类目间语义相似度较高的多分类任务中效果不佳。与单一分类模型相比,算法层面方法的宏观查全率和宏观F1分别提高5%、3%左右。
  本文提出的分类标引方法可在一定程度上提高文献分类标引的宏观查全率和宏观F1,较好地提升了非平衡数据条件下的分类标引效果,为样本量较少乃至为零的类目的自动标引提供了解决思路。
其他文献
通过启动消费市场扩大内需,调节供需平衡,已经成为今后一个相当长的时期内中国拉动经济持续增长的首要任务.发展消费信贷,为扩大消费需求提供金融支持和金融服务,不仅可以拓展商业银行的业务领域,而且将对调节社会供求平衡,推进中国国民经济持续增长起着举足轻重的作用.
学位
农业的发展受到农业风险特别是自然风险的严重影响,农业保险作为一项转嫁风险,分摊损失的经济补偿制度,对保证农业生产的持续稳定发展有着十分重要的意义.同时,农业保险高风险、高赔付率的特点又使其成为一世界性的难题,发展缓慢.因此,研究农业保险问题具有的理论和实践意义.
学位
近年来,互联网普及程度迅速加深,电子商务作为推动我国经济社会现代化发展的新动力,进入了发展快车道,在社会经济中的作用日益凸显。在培养和增加劳动力方面,随着电子商务服务业规模的持续扩大,电子商务平台服务业、支撑服务业、衍生服务业等领域从业人员规模激增。2014年我国电子商务领域从业人员为2690万人,而2018年已经快速达到4700万人,随之而来的是其从业人员教育培训服务业规模的迅速扩大。  本文在
科技型企业创新所具有的高成本、高风险的特点,决定了科技型企业成长的复杂性,分析并识别此类企业的成长性,即潜在竞争力成为技术竞争情报领域一个新兴的研究议题。企业提升潜在竞争力是为了在未来获得更强的市场竞争力和高额利润。本文在企业竞争力评价研究基础上,力图识别出牺牲短期利益获取潜在竞争优势的科技型企业的未来财务绩效和市场发展规律,旨在更好的实现对企业未来竞争力的预测。  首先,系统梳理国内外研究文献,
随着科研创新活动综合性和复杂性的提高,单一主体很难掌握全部的创新资源,为了弥补资源差异,实现创新资源的优化配置及优势互补,科研创新合作成为科学研究发展的必然趋势。由于地理位置差异等原因,不同区域对创新资源的掌握程度有所差异,区域间创新合作对分摊创新成本、推动资源流通、提高成果质量具有重要作用。粤港澳大湾区作为我国科技创新发展的高地,对国家乃至全球的科技发展和经济发展起着至关重要的作用,对其创新合作
学位
新能源事关我国能源绿色低碳转型、应对气候变化及生态文明建设的成败。当前各国都积极部署并研究新能源,抢占新能源技术创新的制高点。研究新能源企业技术创新能力,对于加快我国低碳转型、有效应对气候变化和推动生态文明建设具有重要的理论与现实意义。  本文在文献调研的基础上,初步构建了涵盖专利积累、专利价值、专利潜力和研发稳定性的专利指标评价框架,并以光伏企业为例,依托德温特创新索引数据库,制定检索策略,获取
湾区是带动全球经济发展的重要增长极和技术革新的主要发源地。目前世界知名的湾区主要有旧金山湾区、纽约湾区和东京湾区。我国于2019年发布《粤港澳大湾区发展规划纲要》,将粤港澳大湾区的建设上升到国家战略,也为“一国两制”提供新的实践参考。本文以纽约湾区、旧金山湾区、东京湾区和粤港澳大湾区作为研究对象,测算四个湾区的创新绩效,并进行对比分析,借鉴世界三大湾区的科技创新规划和资源配置经验,以提高粤港澳大湾
学位
科技资源是科技创新的重要物质基础,充分有效地利用各类科技资源对于提升研发水平,增强科技创新能力有着重大作用。当前我国科技资源服务取得了一定的成效,但仍然存在着服务方式单一、服务不便利等问题,不利于科技资源的利用。本文通过对分布式科技资源服务模式的研究,旨在促进科技资源服务效率的提高,使服务更加便利。  全文分为七部分。第一部分介绍了本研究的研究背景、研究意义和研究思路;第二部分介绍了科技资源服务的
学位
2018年科技部等五部门发文展开清理“唯论文”、“唯职称”、“唯学历”、“唯奖项”专项行动,“四唯”问题成为科学界普遍关心的问题。本研究主要从多样性视角出发,对科技计划项目产出的状态和特征进行分析,尝试为进一步明确科学的科技计划产出体系目标,提升产出质量和效益,为未来的科技计划资助产出结构调整和优化评估方法提供参考,并为优化科技计划布局、提升科技计划项目过程管理水平提供参考。  本文首先对相关研究
基础研究是创新之源、强国之基。随着基础研究在国家发展中占据越来越重要的地位,国家之间的竞争逐渐向前端转移到基础研究领域。基础研究经费投入是基础研究活动的物质保障,基础研究经费投入强度指国家基础研究经费投入与国内生产总值的比值。目前,主要科技创新型国家的基础研究经费投入强度一般在0.3%以上,而中国2018年基础研究经费投入强度为0.12%,相比差距较大。基础研究经费应该投入多少,需要考虑多方面因素