结合话题相关性的微博文本情感分类研究与实现

来源 :西南大学 | 被引量 : 0次 | 上传用户:litao343243581
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网社交的流行,以新浪微博为主的社交平台得到了极大的发展,截止2019年,新浪微博文本数据日均发布量高达1.5亿,是文本数据日均发布量最高的平台。这些文本数据中包含了大量的主观信息,如果能够对这些主观信息进行有效地分析,及时了解用户的情感倾向,并抽取出相应的观点,就可以有效把握舆论趋势,继而惠及政府和民众。故许多研究人员展开了对微博文本进行情感分析的研究。对于微博文本情感分类,以前的方法大多是用人工特征进行粗粒度二分类,会耗费大量人力资源且分类结果较为简单,同时没有对用户的观点做进一步的抽取及可视化,使得用户对情感分类结果较难理解。此外,微博文本是话题与正文结合在一起的形式,很多情况下二者并不相关,若直接对其进行情感分类则会额外耗费资源且对分类器造成干扰。针对以上不足,本文结合话题相关性研究并实现了微博文本情感分类系统,本文主要包含以下几方面的工作:1.构建结合话题相关性的微博文本情感分类模型。该模型包括数据获取模块、数据预处理模块、话题相关性分析模块、微博文本细粒度情感分类模块、观点词抽取情感分析模块共五个模块。2.给出一种不触发反爬虫机制的微博文本批量获取方法以及包含分词、去噪、词向量化的数据预处理方法。该方法通过模拟出用户浏览微博的场景,使得爬虫程序可按话题批量获取相应微博正文等数据并储存到本地Mysql数据库中。而针对已经获取的数据,使用微博语料模型的分词工具进行分词从而得到高质量的分词结果,使用正则表达式对数据中的噪音数据进行识别并去除。最后采用Gensim工具将所有词语转化为词向量,在生成词向量时选用支持本机最大资源的参数,从而得到目前能获取到的最优词向量,作为神经网络的输入,使得学习到的分类器效果更好。3.给出一种利用分类进行话题相关性分析的方法。对于话题相关性分析而言,该方法先计算出微博话题和微博正文的TF-IDF相似度与Jaccard相似度、主题词长度等共计8个基本特征构建特征集,再用Feature Tools将8维基本特征构造为146维的复合特征,使用PCA进行对复合特征降维,最后使用随机森林分类器对降维后的数据集进行分类,从而得到话题和微博正文是否相关。4.设计一种基于深度学习的BI-SRU-Attention神经网络分类器。它能够捕捉文本中的双向序列信息,并且对特定的粒度利用注意力机制可以注意到文本不同的词向量,从而实现对话题相关的微博正文在不同粒度下的情感分类。并且利用微调技术来处理过拟合问题。对于训练时的分类器,使用了Tensorboard框架对其训练过程进行实时可视化,从而直观地观察到分类器训练是否收敛,以及分类器的性能指标。同时也实现了可预测细粒度情感分类的Web可视化页面,对于各个粒度下的总体情感分布,用可切换粒度的柱状图进行可视化,并且对于每条微博的情感分类情况使用表格进行可视化。5.给出一种基于序列标注可提取观点词的神经网络。序列标注先将微博正文中每个词看作待分类的目标,将标注为0或1的词当作被抽取的观点词。同时为了解决序列标注中的数据不平衡问题,本文使用Focal_loss当作损失函数,对标注为[0,1,2]的词分别赋予[0.45,0.45,0.1]的权重,从而让分类器更专注于学习需要抽取的观点词的信息。在训练时也使用了Tensorboard进行可视化。最后,对于在新数据上预测出的观点词,使用词云工具与频次统计后的柱状图进行可视化,以方便用户从整体上把握观点信息。6.实现并测试微博文本情感分类系统。先对系统所使用的开发环境进行介绍,主要包括Tensor Flow、Keras、以及开发工具Pycharm,然后将系统所涉及的主要模块分别进行实现及分类器与功能测试。对分类器测试而言,采用艾漫数据提供已标注中文数据集以及公开的英文数据集Sem Eval-14-Resturant进行测试,并使用当前的典型算法进行对比实验,并对实验结果进行分析。对功能测试而言,主要让其对爬取的未标注数据使用已保存的分类器进行预测,并将预测结果在Web端进行可视化。通过对比实验表明,本文给出的结合话题相关性分析算法能有效地实现微博话题与微博正文是否相关的区分。同时能够在判断话题与正文相关的条件下,准确分类出各个粒度下微博正文的情感极性,并在同一话题下提取出能够代表大量用户看法的观点词。其中,话题相关性分析算法达到了90.1%的准确率,比同领域最新的算法TF-IDF-SIM高出4.9%的准确率。微博文本细粒度情感分类算法达到了87.6%的准确率,高出典型分类算法3%的准确率。观点词抽取算法在中英文数据集上分别达到了81.1%和82.2%的F1-score,分别高于典型算法1.5%与1.29%的F1-score。通过对比实验充分验证了本系统的有效性。通过对本文所构建的结合话题相关性的微博文本情感分类系统的测试以及该系统的实际运行情况表明该系统可实现更准确、高效的细粒度情感分析,同时能让用户更加直观地了解到微博用户群体在某一话题下的整体观点,从而迅速把握舆情,为企业与政府带来实际利益。
其他文献
树立法律在规范广告秩序上的权威.必须在执法末端上抓落实、动真格。
第九届全国人民代表大会第二次会议通过的宪法修正案明确规定,中华人民共和国实行依法治国,建设社会主义法治国家。宪法修正案用根本大法的形式确认了依法治国基本方略的战略
<正> 罗马尼亚的研究人员最近在一个岩穴中发现了迄今为止人类尚未知晓的27个新的生物物种。这些物种包括蜘蛛、蚂蟥、巨大的裂齿昆虫、使硫化氢再循环的细菌、蛆虫、软体动
分形理论从诞生之日起就打上了地貌学的烙印,并在与地貌学相关的肥沃土壤中成长壮大。
初春,草莓大量上市,鲜红的果实配着嫩绿的叶子,揭开了春之序曲,其酸甜的滋味,勾起多少幸福的感觉。
1988年12月,邓小平根据当代科技迅猛发展,竞争激烈,以及对世界经济和社会发展所起的巨大推动作用这一新的现实,率先提出了“科学技术是第一生产力”。2001年7月1日,江泽民《在纪念
茶起源于中国,在漫长的历史岁月中形成了以茶为主体的茶文化系统。传统的分类方法将中国茶分为六大基本茶类,六大基本茶类及相关知识是中国茶文化系统的基石,对于想要学习茶文化的人来说,从此入手无疑是一条捷径。然而,茶文化范围广泛,内容庞杂,即便是较为基础的六大基本茶类及相关知识,也因其内容的复杂与抽象让很多人望而却步。随着人们生活水平的日益提高和对健康养生的追求,越来越多的人将茶作为主要饮品,迫切需要了解
飞机配电装置是由汇流条及控制装置、电路保护装置组成,主要用于飞机配电系统的供配电控制与过载保护。目前,该系列飞机配电装置的检测依然采用手工检测方式,且断路器电流过
贫困,是在特定的社会背景下,部分社会成员由于缺乏必要的资源而在一定程度上被剥夺了正常获得生活资料和参与经济和社会活动的权利,并使他们的生活持续地低于社会常规生活水准。