基于无监督学习的可持续发展目标数据分类

来源 :数据与计算发展前沿 | 被引量 : 0次 | 上传用户:xy0382
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]联合国可持续发展目标(SDGs)是联合国于2015年提出的指导全世界在2015-2030年间发展方向的目标,涵括了社会、经济、环境三个方向上的海量数据.针对SDGs标注数据少、数据量大、难以查找利用的特点,本文旨在无监督地对SDGs数据进行分类.[方法]本文首先利用结合textrank和相对词频的关键词提取算法从SDGs元数据集中提取类别描述信息,再利用基于词向量的无监督文本分类算法对SDGs数据进行了分类.[结果]在联合国官方提供的SDGs数据库上的分类实验表明,本文分类模型的F1-micro score达到了0.813,对比SeedBTM提高了33%,相较于不擅长短文本分类的STM及DescLDA上更是分别提升了39%和52%,对比使用TFIDF和textrank所提取关键词的分类效果分别提升了7%和25%.[结论]本文所提基于textrank和相对词频的关键词提取方法具有较好地可用性,且相较于目前主流的主题模型算法,本文所提基于词向量的无监督分类方法能够取得更好的效果.
其他文献
Traditional organic liquid electrolytes used in commercial Li-ion batteries would incur serious safety issues due to their flammability and volatility[1].The exploration and design of solid electrolytes with high room-temperature Li-ion conductivities(sRT
Developing an efficient synthesis protocol to simultaneously control 2D nanomaterials'size and dispersion is the pivot to optimize their electrochemical perfor
随着我国社会不断发展,科技水平也在不断提升,工业的发展已经进入到了一个新的阶段.对于机械制造以及自动化来说,在展开设计工作的时候应该严格遵守相应的设计原则,这也是保
[目的]使用高质量的历史数据预测未来光伏发电功率,对高效利用太阳能可再生能源、补充电网供电能力和推进节能减碳具有重要意义.[方法]由于光伏时序数据质量参差不齐,本文提
[目的]为了加快国产CFD软件的计算速度,本文设计并实现了基于国产加速器的加速版本.[方法]基于CCFD V3.0版本,将软件的核心算法移植到国产加速器,并采用多种方法进行优化.[结
[目的]针对传统意见领袖发现方法局限于部分数据特征导致忽略部分意见领袖的现象,提出一种基于综合影响力和情感特征的发现方法CI-SC,可筛查出部分被传统方法忽略的意见领袖.
A novel Zn-based metal-organic framework Zn(dobdc)(datz)[Zn2(H2dobdc)(datz)2·1.5DMF]with plentiful hydrogen bond donors(HBD)groups was facilely synthesized fro
本文以某重型牵引车轻量化车架的平衡轴横梁为拓扑优化对象,确定了该横梁基于特定接口的设计空间.结合车架实际使用情况对设计空间建立了带有多个工况的有限元模型,并以1.5倍
车用复合材料材料在成型过程中,成型状况无法直接观测,本文研究了用电阻传感器对树脂流动过程进行监测,为车用复合材料成型工艺提供了优化的理论基础.
Elemental state matter-heteroatom-doped carbon composites are of great importance for the development of anode in lithium ion batteries(LIBs).In this article,me