基于word2vec的SVC和AT-LSTM应用于文本分类的比较和结合

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:ss1725
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理中,文本分类是一项基础而又重要的工作。文本分类是对自然语言文本信息的分类任务,分类的类别是语言中想表达的意图。word2vec自问世以来,就以其向量空间结构化的优势风靡全球,并已经在自然语言处理的方方面面得到了广泛的应用。本文以word2vec为基础,以维基百科中文百科语料库为语料生成中文词向量,分别以时下流行的分类器模型支持向量机和自然语言处理的新生力军AT-LSTM为工具,对实习期间收集的酒店评论数据进行文本分类(情感分析)的实验尝试,并对这两种算法的结果和性能做比较。然后尝试结合这两种算法,各取所长,给出了分类精度更好的结合模型。以word2vec生成的词向量作为输入,支持向量机还需要由词向量到句子向量的中间步骤,这一步骤不仅充满困难还直接决定了最后的分类效果;ATLSTM则避免了这一问题,通过encoder-decoder模型框架提取句子特征,直接对句子进行分类。在文本分类任务中,相同样本下,AT-LSTM的分类结果明显优于以词向量均值为句子向量的支持向量机分类结果。但以词向量“投票”的方式生成句子向量的支持向量机在分类效果上不逊于AT-LSTM模型,即支持向量机的分类结果更依赖于生成句子向量的方式,而AT-LSTM可以看作是一种特征提取方式。本文结合两者,先通过AT-LSTM提取句子的语义向量,然后用支持向量机进行分类,最终得到了比单纯的支持向量机和AT-LSTM分类效果更好的结合模型。
其他文献
细胞是相对独立的生命基本单位,同一类型的细胞代谢途径基本相同。一般而言,研究细胞生长的基本规律,主要途径为观察整个细胞群的生长状态。由于微环境的差异,往往存在“细胞异质性”现象。对于单细胞分析技术而言,它的优势在于能对细胞的生理状态获得更加全面的信息。以电感耦合等离子体质谱仪(ICP-MS)为主要手段的单细胞分析方法在单个细胞的元素检测上提供了解决途径,事实上,ICP-MS单细胞分析已在药物的检测
陆机《文赋》是我国文学批评史的重要著作。《文赋》中所体现的文学理论是陆机对传统儒家文学观念的深化与发展。其中陆机所推崇的雅、艳之美分别从思想内容与艺术审美上,表现
敦煌壁画中的装饰纹样种类繁多,植物纹样是其中的一个重要分支,从敦煌壁画的整体观来看,宝相花纹样是敦煌壁画中诸多纹样图案中最具代表性的本土化纹样之一。随着佛教艺术的渐兴,各类植物花卉纹样传入我国。从魏晋南北朝时期开始,在佛教文化和各类装饰艺术题材的影响下,植物花卉题材的纹饰图样逐渐渗透到了人们的生活和艺术领域中,石窟艺术便是这一阶段人们所创造的艺术文化产物。宝相花纹样是以佛教艺术中的莲花为母体,逐渐
在“大众创业、万众创新”的时代背景下,创新型盈利模式不断涌现,房地产企业也纷纷转型。普通房企在转型之前采用的盈利模式比较单一,土地转让收入或房产销售收入是其主要的
<正> 指南针的发明与革新,经历了“司南”、磁针和罗盘三大发展阶段。“司南”是一种勺形磁性指向器,发明于战国至西汉时期;磁针至迟在北宋就已出现,看风水的勘舆家把磁石磨
<正> 最近,我们对部队经济管理的情况进行了重点抽查和了解。大量事实表明,多数单位的领导机关和后勤保障人员都在积极学习社会主义的商品经济知识,努力通晓新形势下部队经济
随着计算机技术和会计电算化的迅猛发展,计算机辅助审计技术(简称计算机审计)在审计实务中得到了广泛应用和推广。如何利用计算机审计来提高审计效率和审计质量,预防和降低审
在抗日战争后期,时任国民政府军事委员会副委员长的冯玉祥已经不掌兵符,但在军政界仍有很高的地位。此时,中国人民抗日战争到了最艰难的时候,为了鼓舞信心,坚持抗战,冯玉祥利
<正> 随着党的十四大精神的贯彻落实,以建立社会主义市场经济为目的的我国经济改革,将会以更快的步伐向前迈进。在计划经济维系下生存和发展的我国军事经济工作,必将面临着新
<正> 随着社会主义市场经济体制的建立和不断完善,部队后勤保障出现了许多新情况、新问题。尤其是驻艰苦地区的边防部队,多年来实行的统购统供、实物保障的供应方式,受到极大