TF-IDF和Word2vec在新闻文本分类中的比较研究

来源 :电脑知识与技术:学术版 | 被引量 : 0次 | 上传用户:woailzm002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的发展,各类数据层出不穷,新闻数据更是呈指数爆炸式增长,通过人工对新闻文本进行分类得越发困难。自动文本分类技术作为自然语言处理的重要分支而受到学者们的广泛关注。文章首先对新闻文本进行数据预处理,随后重点研究了TF-IDF和Word2vec两种不同的文本表示方法,采用KNN算法完成新闻文本分类对比,实验结果表明Word2vec表示的特征向量在新闻文本分类中取得了较好的分类效果。
其他文献
本文要旨有三:一为据傅山《霜红龛集》、《傅山全书》(第七册误收之所谓傅山医书除外)之语言风格与《傅青主女科》语言风格对比,确证《女科》非傅山作;二为论证傅山是成就卓
为保证SpaceFibre星载数据网络中大量实时数据流的超高速可靠传输,提出一种基于FPGA的SpaceFibre服务质量机制设计方案。通过对网络流控制和服务质量机制的分析,构建出SpaceF
随着社会经济的不断发展以及科学技术水平的提高,人们对生产设备的维护意识也在不断提升,开始注重设备的预防性维修。基于此,本文通过分析新型干法水泥厂设备预知性维修的必
河流相储层的研究,直接影响到油气藏开发效果,如何进行精细储层表征关系到能否正确量化开发指标、或者能否正确描述剩余油分布进而有效减少低效井比例。海上油田有别于陆地油
【目的】为了快速、准确的检测烤烟叶片生理生化指标,获取烟田施肥和烤烟生长信息。【方法】通过不同施氮、钾量试验,采用ASD Field spec FR 2500光谱仪,分析不同处理烤烟叶
2000年北京大学考古文博学院三峡考古队,在三峡库区重庆忠县崖脚墓地D区发掘出土了一批战国中、晚期楚文化墓葬。这是迄今为止在三峡地区发现的分布位置最偏西的楚墓。这批墓
目的:探讨伊马替尼联合CCLG ALL-2008方案对Ph阳性急性淋巴细胞白血病(Ph-positive acute lymphoblastic leukemia,Ph+ALL)儿童无病生存期及不良反应的影响。方法:回顾性分析
罗家坝遗址位于宣汉县城北约46公里处,1999年文物部门对该遗址进行了考古发掘,共清理墓葬6座、灰坑19座、房屋基址1座,出土各类文物及标本100多件,主要为新石器时代晚期遗存与东
为有效规避外军侦察卫星对我海上舰船目标的侦察监视或对其实施干扰抗击,需要对外军卫星轨道进行预测。卫星轨道预报模型局限性及预测精度不高是目前该领域存在的难题,针对传统方法存在的问题,提出一种基于神经网络算法的卫星轨道预报算法,通过训练历史TLE数据得出轨道变化规律,从而预报卫星轨道,初步的实验结果表明,所提出的算法可行。
文化产业是21世纪的黄金产业、朝阳产业。文化“走出去”战略是近年来我国文化发展最突出的主题之一,这一战略是在我国文化产业深入参与国际分工和国际竞争的背景下,我国文化市场对外开放的必然选择,也是我国提升文化软实力、实现文化大发展大繁荣的客观要求。