文本分类中文本表示模型与深度学习算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户：zx1112220

【摘要】

：

【作者】

：

李腾飞

【出处】

：

河南大学

【发表日期】

：

2020年01期

【关键词】

：

文本分类神经网络语言模型特征聚类特征权重深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的飞速发展,以网络为载体的文本信息也呈现出爆炸式增长的趋势。这些海量数据依靠人工进行管理和分类会不仅会耗费大量人力和时间,同时也难以实现。所以,如何高效地组织和管理这些文本信息是自然语言处理领域的一大研究热点,这也促进了自动文本分类技术的长足发展。目前,在文本挖掘、信息过滤与检索等领域,自动文本分类技术已经得到了广泛的应用。自动文本分类是一个涉及到机器学习算法、优化理论以及自然语言处理等多个领域知识的技术。因此,许多因素会影响到自动文本分类的性能,例如:文本的预处理、文本表示模型的选择、特征降维算法、文本分类器的设计等。在众多的影响因素中,文本表示模型以及文本分类器的设计是自动文本分类领域的两大研究热点。本文首先讨论了文本分类的研究背景和意义,分析国内外研究动态和热点,阐明了文本分类各个流程的具体实现。在此基础上,本文主要在文本表示模型以及深度学习在文本分类中的应用两方面展开深入研究,并取得如下成果:（1）提出了一种基于神经网络语言模型的特征聚类算法:NNLM-FC。针对传统向量空间模型中词向量语义缺失、维度过高以及特征集合中存在大量同义词和近义词的问题,利用神经网络语言模型将特征词转化为低维的语义向量,使用K-means聚类算法将语义相似的特征词进行聚类,利用卡方统计算法计算每个特征词的卡方统计量,选择聚类簇中卡方统计量大的特征词用于文本表示,最后得到了基于神经网络语言模型的特征聚类算法（NNLM-FC）。在复旦大学语料库和网络爬虫数据集上使用朴素贝叶斯、支持向量机和K-近邻分类器,使用分类结果的正确率、₁F值作为度量标准,与常见的特征选择算法进行了全面的对比。实验结果证明本文提出的算法不仅能够有效的降低向量空间的维度,而且能提高文本分类的性能。（2）提出一种基于加权词向量的深度学习文本分类模型。针对传统深度学习模型不能很好区分词向量重要程度以及CNN模型丢弃了大量有用特征且不适合处理序列化文本的问题,首先提出一种新的特征权重计算方法（TDC）,利用该算法对词向量进行加权处理,同时去除那些重要程度低的特征词,从而减小了深度学习输入矩阵的维度。接下来将CNN模型与LSTM模型结合起来,利用CNN模型提取文本中丰富的特征,结合LSTM模型处理序列数据的优势,使用加权后的词向量作为输入,最终得到了基于加权词向量的深度学习模型:W-CNN-LSTM。通过在Stanford Sentiment Treebank和Movie Reviews数据集上的实验证明了W-CNN-LSTM模型的分类性能优于传统的深度学习模型。

其他文献

浅谈中职学生职业行为习惯养成教育

初中毕业的部分学生因没有考上理想的高中,或个人不愿意顶着高考压力去读高中,而选择就读中职学校。在这个特殊群体中,部分学生在生活中、学习中或多或少存在一些问题,而这些

期刊

中职学生职业行为习惯养成教育

金属对金属大头全髋关节置换术的临床应用及疗效

目的：研究金属对金属大头全髋关节置换术的临床应用及疗效。方法：2007年～2009年,采用金属对金属大头全髋关节置换术治疗股骨头坏死及股骨颈骨折41例(43髋),进行随访、进行临床评

学位

金属对金属全髋关节置换术股骨头坏死股骨颈骨折

《论语义疏》产生的原因与背景

《论语义疏》产生的原因与背景,既关乎六朝经学、学术的诸多情况,又与该时期的思想文化状况,以及梁代的文教政策等密切相联.对之加以探讨,兼具学术史、思想史等多方面价值.

期刊

《论语义疏》产生原因背景

哮喘患儿呼出气一氧化氮水平与肺功能相关性研究

目的探讨处于非急性发作期哮喘患儿呼出气一氧化氮水平(FeNO)与肺功能各指标的相关性及其临床意义。方法选取2009年2月至2009年7月于中国医科大学附属盛京医院小儿哮喘门诊就

学位

支气管哮喘呼出气一氧化氮肺功能一秒钟用力呼气容积

后尿道—球海绵体反射在原发性早泄及射精迟缓发病机制中的研究

研究背景早泄是最常见的男子性功能障碍性疾病,全球发病率高达9%-31%,主要分为原发性早泄和继发性早泄。其中,原发性早泄的发病率低于继发性早泄,但其具体的发病率尚难以确定

学位

前列腺部后尿道球海绵体反射原发性早泄发病机制射精迟缓

吉林人民出版社中小学教辅图书的营销策略研究

中国出版行业进行的大规模体制改革正在使整个行业发生巨大变化。其中所受波及最大的应属图书发行领域。在这场转体改制的革新中,传统的营销模式由于方式单一和缺乏创新,已经

学位

教辅图书营销策略目标市场选择

低浓度、大风量有机废气治理工艺及其应用

社会经济的快速增长带来了很多的问题,对自然环境造成了很大的破坏,因此低碳环保理念也引起人们的重视。人们生产生活中会产生一些有机废气,其主要的特点就是低浓度、大风量

期刊

低浓度大风量有机废气

扶贫路上不能少了文化助力

不久前，媒体报道了贵州省黔东南苗族侗族自治州榕江县以传统非遗技能培训助推脱贫的做法。当地依托刺绣和蜡染“文化遗产”的文化传统优势，积极开展“绣娘”“非遗”技能培训，使

期刊

黔东南苗族侗族自治州文化脱贫

财务共享服务中心建设现状与瓶颈突破——以D公司为例

以D公司财务共享中心为研究对象,分析其财务管理现状和企业管理目标,并结合实际情况,探讨建设财务共享服务中心的原因与必要性,剖析财务共享服务中心的基本现状以及发展中遇

期刊

财务共享服务中心电子审批绩效考核

广西乐业县猕猴桃病虫害防治技术研究

乐业县位于广西西北部,地处云贵东南麓。冬无严寒,夏无酷暑,昼夜温差大,是全区唯一一个低纬度,高海拔山区县。气候得天独厚,年平均气温16.3℃,年降水量1100—1500mm,非常适宜

期刊

猕猴桃病虫害防治乐业县

文本分类中文本表示模型与深度学习算法研究

与本文相关的学术论文