面向中文微博文本的情感分类方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:hsuyh412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的普及,公众在网络平台上发表评论,参与社会事件讨论的频率大幅度提高,微博作为国内互联网信息交流与共享的热门社交网络平台之一,其上的言论在一定程度上可反映出国内民众的社会情感倾向。因此,对微博文本数据加以挖掘与分析以及对微博文本情感进行分类非常有意义。微博文本情感分类是对微博中文本的情感类别进行有效划分,文本数据表示方法和分类算法对文本分类的准确率影响较大,由于传统语言模型训练获得的词向量不包含情感特征,并且对于不同词向量,各种文本情感分类算法也存在差异,应用于微博文本情感分类效果不佳。针对这些问题,本文开展研究工作如下:1.针对Word2Vec模型训练获得的词向量不具备情感特征的问题,本文提出将网络情感词典的情感极性融入词向量中,以扩大情感词向量之间的差距,并通过结合不同的分类算法进行情感分类,以获得更高的情感分类准确率。实验结果表明,词向量融入网络情感词典极性后,分类准确率得到提高,其中,与支持向量机结合的准确率达到91.27%,比与逻辑回归结合的准确率提高了2.54%。2.针对微博文本中普遍存在多义词的现象,本文专门针对该问题采用BERT模型来进行词向量,从而消除了多义词的影响。同时,该模型进行词向量训练时是以字为单位,并以文本的情感标签对字进行情感标注,从而解决了未收录词无情感信息的问题。本文将BERT模型获得的词向量作为深度学习分类算法的输入进行情感分类,实验表明,其情感分类的准确率达92.66%,高于将情感极性融入词向量进行情感分类的方法。
其他文献
本试验证明杂交小麦的优势与其叶片气孔长度、气孔的复体面积表现出极强的正相关,相关系数为0.99。从小区产量相关性试验来看,可作为杂优的一项指标。
本文在Overdetermined(和highly Overdetermined)椭圆型条件下,讨论多个未知函数、多个自变量的一阶组和高阶组的解的存在唯一性及解的一些函数论性质。
社区文化是城市群众文化的发展与延伸,是社会主义精神文明建设的基础工程。本文结合近几年来在社区文化建设工作中的一些体会,提出一些思路,以期对社区文化建设做一些有益探
本文对河北省小五台山、雾灵山两个自然保护区的自然环境作了概述,着重论述了建设这两个保护区的意义。最后建议再建几个保护区。
本文系统地计算了RCo_5、R_2Co_(17)(R为稀土元素)的晶场系数,并将所得的二阶项与J.E.Greedan和V.U.S.RAO的结果(他们只计算了二阶项)进行了比较.
7XXX铝合金属于超高强铝合金,具有质轻、比强度和比刚度高等优点,是目前综合性能较好的铝合金之一,也是航空工业首选材料。但铸态Al-Zn-Mg-Cu合金晶粒粗大,组织不均匀,元素偏析严重,同时高合金铝合金会生成很多不稳定相。因此对其进行改性已经变得越来越重要。搅拌摩擦加工是在搅拌摩擦焊基础上演变的一种用于材料改性的新型、简单、高效的大塑性变形技术,目前广泛应用于镁铝合金的加工改性。本文对搅拌摩擦加
混凝土的出现为现代工程建设做出了非常重要贡献,其具有非常多优点,但是缺点同样存在,最主要的就是抗拉能力较差,容易发生开裂问题。一旦混凝土发生开裂就会造成整个建筑结构
随着全球经济一体化,各国贸易往来日益频繁,我国经济体量巨大且一直处于高速发展状态,国外知名汽厂商纷纷来华投资建厂,加上近年来自主汽车品牌的崛起,使我国汽车产业蓬勃发展,当然,对车企而言,竞争也是更加剧烈。面对如此复杂的市场环境,各车企也积极应对,不断研发新车型,吸引更多消费者,抢占市场份额,但这一切的前提是自身产品拥有良好的品质,质量过硬的产品才能赢得良好的口碑,才能提高客户的认可度。企业要提高产
玫瑰花在我国栽培历史悠久,距今已有两千多年的历史,其分布范围广,品种多产量高。玫瑰花中蕴藏着多种有益于人体健康的营养元素,例如蛋白质、脂肪、淀粉、多种氨基酸及维生素等。本文研究在低筋小麦粉中添加不同比例的玫瑰花粉,通过探讨其流变学特性(粉质特性,糊化特性、溶剂保持力(Solvent Retention Capcity,SRC)及混粉面团质构的变化趋势,研究玫瑰花对酥性饼干品质的影响。通过单因素实验
本刊讯由卢万发著的《方志学原理》一书,于2007年6月由四川出版集团巴蜀书社出版。35万字。全书内容丰富,涉及面广,既有关于方志及方志学一些基本问题,如方志起源,方志性质、