面向微博的文本情感分类的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:nocloud
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络社交平台的成熟,越来越多的信息涌现在社交平台上。其中,网络用户群体基数大,且涉及人群的领域范围广的国内网络社交平台,属新浪微博莫属。我们如何有效的从这些杂乱、简短、无序,且又充斥这大量网络用语的博文中发掘高质量的,且带有情感倾向的文本,已经成为自然语言处理的一个重要课题。本文主要构建了两种文本情感分类的方法,即基于LS-SO算法的文本情感分类方法和基于Attention机制的Bi-LSTM模型的文本情感分类方法。较以前的文本情感分类方法是有所优化与改进的。本文研究工作如下:1、构建情感词典。对清华大学李军中文褒贬义词典和大连理工大学的中文情感词汇本体库进行情感七分类整合,同时,对知网HowNet情感词典和台湾大学NTUSD简体中文情感词典进行情感二分类整合。共标注了八个词典:基础情感词典、目标情感词典、网络用语情感词典、表情符号情感词典、否定词词典、疑问词词典、程度副词词典、连词词典,从而为文本情感分类提供保障。2、自动扩充基础情感词典。使用PMI-IR算法分别对基础情感词典的7大情感类别下的正负向情感词进行同义扩充,从而形成标准基础情感词词典。3、自动扩充领域情感词典,包括情感词典的扩充和表情符号情感词典的扩充。在PMI-IR算法的基础之上提出了一种LA-SO算法对与微博相关的领域情感词典进行情感细分类的自动扩充。4、细化候选词抽取规则和微博文本语义分析规则。根据我们制定的抽取规则来抽取文本中的候选情感词,以便更好的识别出未登录词。根据语义分析规则计算文本的情感值。同时计算表情符号的情感极值占比,将其与情感词的极值进行融合,从而进一步修正微博文本的情感加权值。5、搭建深度学习模型。在构建Bi-LSTM的基础上引入注意力机制Attention,将模型结构分为四大层次,即词向量表示层、语义信息编码层、全局特征抽取层、情感文本分类层。其中,词向量表示层采用Word Embedding机制将文本数据映射成低维度的实数向量。语义信息编码层分别计算每个词对句子的贡献程度值,并保存每个词的上下文信息。在全局特征抽取层,借鉴了CNN思想对前后向输出特征值进行特征融合,从而提高模型情感分类的准确性。情感文本分类层采用了Softmax分类器进行情感文本分类。
其他文献
在高中数学的几何教学中,圆锥曲线属于重点教学内容,具有一定的学习难度。在大量充分而有效的调查中笔者发现,学生对圆锥曲线知识的掌握不够熟练,课堂上教师教学的内容能够听
探讨如何提高AutoCAD课堂教学效果的方法,介绍AutoCAD的使用经验和一些鲜为人知的非常实用的技巧:利用solview/soldraw等简单的命令实现由三维图形转变为二维图形,修改acad.P
文白异读是本地音系与外来音系的竞争、叠置,扩散式音变是"自源性"的发展演变,两者的表现形式通常都是一个字有两读或多读。海安方言声母文白异读包括邪母字文读为擦音,白读
农村财务管理工作是村级事务管理的核心,是农村经济发展的基础。石湫街道农村财务管理工作经过多年的实践和完善,坚持以问题为导向,在制度创新上作了有益尝试,不断推进农村财
提高零件的疲劳强度是机械结构设计中不容忽视的问题。针对影响零件疲劳强度的因素并结合实际工作经验,对在设计过程中如何提高零件的疲劳强度的方法及措施作了简要阐述及相
随着我国城市化进程的持续高速发展,旧城区改造、居民搬迁、传统历史文化的流逝日趋激烈,面临旧城区毁灭的危险。如何保护传统历史建筑,进而保护好历史街区、环境乃至整个古
以解决当前配电网生产过程中存在的管控难题为目标,阐述了配电网生产过程图形化的研究内容和实现方式,以期能为后续配电网的生产过程管控提供技术支持和参考。
低聚果糖作为一种新型的功能性食品添加剂,广泛应用于食品、保健品、药品中,被誉为集营养、保健、疗效于一体的健康新糖源。综述了其作为益生素、膳食纤维、活化因子、食疗剂
石油化工行业是国家重要的支柱性能源产业,在国民经济中担负重要责任,其过程控制系统的安全性和可靠性都应受到严重关注。近年来,国内外的工业控制系统受到网络攻击的情况逐
小学阶段,素质教育理念不断深入。音乐课堂能够有效培养儿童的听觉审美能力,在其中应用葫芦丝类小乐器能突出学生的主体位置,激发课堂活力。本文将结合乐器教学意义,讨论葫芦