基于TF-IDF的FastText文本分类算法研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:zhangliu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动智能终端的蓬勃发展,我国已经迈入全民互联网时代。网民数量与日俱增,同时新闻、电子书等中文文本数据也在大规模增长。如何精确地将文本数据进行自动分类,成为了自然语言处理领域的热点问题。将中文文本数据进行自动分类,对信息管理和文本挖掘等方向的研究也有着极其重要的意义。传统的基于机器学习的文本分类算法一般使用TF-IDF算法来提取文本中的特征,但是这种方式会忽略词在文本中的其他特征以及词与词之间的联系,使最后提取的特征并不是很精确,从而导致分类效果不佳。所以现在自然语言处理领域中都会使用深度学习去处理文本分类问题,而基于深度学习的文本分类方法虽然在分类效果占有优势,但随着隐层的增加,算法的计算量也在不断增大,这样会消耗大量的计算资源以及时间。FastText文本分类算法的出现完善的解决了上述中的问题,这种文本分类算法与其他分类算法相比在保证分类准确性的同时还降低了时间开销,唯一不足的地方是FastText在输入层并没有对输入数据进行特征提取,会对算法的分类效果有一定的影响。因此本文主要研究并改进了 TF-IDF特征提取算法和FastText文本分类算法。主要研究内容如下:(1)研究并改进了文本的特征提取算法TF-IDF。由于传统的TF-IDF算法不但忽略了除词频之外的其他特征,而且没有考虑特征词在文本类别内和类别间的分布情况,针对这一不足,本文提出了 GF-IDF-IE算法,该算法基于TF-IDF算法进行改进来的。首先使用组合特征因子改进词频TF,其中组合特征因子包括了词性特征因子、词长特征因子、词位置特征因子以及词频特征因子;然后再结合信息熵因子对逆文档频率IDF进行改进,分别加入了类内信息熵因子以及类间信息熵因子来考虑特征词在文本类别内和类别间的分布情况。最后通过对比实验的方式验证了改进后的算法更适用于文本的特征提取。(2)研究并改进了 FastText文本分类算法。针对FastText在输入层并没有对输入数据进行特征提取的情况,本文首先使用传统的TF-IDF.算法对FastText的输入层进行特征提取;由于FastText文本分类算法加入了 n-gram,经过特征提取后的输入层数据在n-gram的处理下会产生大量无实际意义的词,需要过滤这些无实际意义的词。经过了特征提取和对n-gram结果进行过滤后,剩下的输入层数据都是文本的重要数据。这一改进不但减少了噪声数据的输入,在一定程度上还增强了 FastText文本分类算法的分类效果。(3)基于(1)提出的GF-IDF-IE算法改进FastText文本分类算法。首先基于GF-IDF-IE算法提取出训练文本数据中每个类别的关键词生成补充数据,在(2)中由于对FastText的输入层进行了特征提取,并且过滤了n-gram的处理结果,这样处理后可能会使输入数据过短(一般少于160个字符),同时FastText文本分类算法也可能由于输入的数据量过少而影响分类效果,所以需要对(2)中的输入数据进行数据补充。首先判断输入数据长度是否过短(少于160个字符),如果是,则需要将GF-IDF-IE算法生成的类别补充数据加入到对应类别的输入数据中去,完成数据的补充。最后的数据则可以进入FastText算法隐层进行分类计算。(4)本文通过实验实现了目前主流的文本分类算法,包括基于机器学习的文本分类算法、基于深度学习的文本分类算法以及经典的FastText文本分类算法,将改进后的FastText文本分类算法在精确率、召回率、F1值、算法执行时间上与目前主流的文本分类算法进行对比,最后得出的结论是本文改进后的FastText文本分类算法在文本分类上具有更好的分类效果。
其他文献
本文基于1996年8月《国务院关于农村金融体制改革的决定》发布以来的农村信用社改革进程中一系列政策措施及相关统计数据,对农村信用社10年改革进程中的的问题进行清理,探寻
随着我国经济体制从计划经济向社会主义市场经济的转变以及统计制度的深化改革,近二十年来,抽样调查作为统计调查的一种重要方法及获取统计资料的重要手段,日益受到政府各部
今天我从幼儿园园长文化的职业视角谈谈园所的特色品牌以及园所的文化发展问题。换句话说,今天我想从文化的战略上来谈一下幼儿园的战略应该怎么设立。教育的质量问题,尤其是
2016年上半年,我国第三产业对GDP同比贡献率达59.3%,而第二产业仅贡献37.5%。2015年,第三产业占GDP的比重首次超过50%,而第二产业占比下降至40%。如何看待这组统计数据所展现
目前,农业发展迎来了新的挑战,即在保证粮食产量的同时,还要尽可能保证其产量。在这一过程中,对粮食品质影响比较大的元素,是种植栽培技术。对此,种植人员要注意栽培技术的革
在目前的磁约束托卡马克装置以及将来的类托卡马克聚变装置中,偏滤器部件所处的工作环境十分恶劣,其安全、稳定运行是托卡马克实验实现长脉冲、高约束模式放电的基础。因此为
随着互联网的快速发展,用户在社交媒体和网络购物平台中产生了大量的数据,文本作为这些数据的重要表现形式,从中提取有效信息与寻找信息热点是现代自然语言处理研究的重要内容。文本分类作为文本信息处理的基础技术之一,一直是信息挖掘等领域的研究热点。在文本分类任务中,文本特征的提取及处理方法直接影响最终分类系统的分类效果。通过使用群体智能、迁移学习等技术可以更好的对文本特征进行识别和提取。本文提出了一种使用扩
介绍了一种四氯乙烯稳定化的方法:首先采用吸附剂分子筛和固体片状苛性钠对四氯乙烯进行干燥中和,然后用三乙胺与单乙醇胺(质量比为1∶1)的混合物(占四氯乙烯溶液质量分数为0.001
本文作者针对某砖瓦生产企业的隧道窑及其配套的隧道式干燥室进行了热平衡测试与计算,介绍了测试数据,分析了影响该窑热效率的主要因素,提出了该窑节能技术改造的方向,为相关人员
2000年以来,在高校实施学院制的背景下,“教授治学”成为我国高教界的热点问题。国内高校的“教授治学”制度并没有改变高校既有的学术性组织结构,一方面,“教授治学”制度无法回