论文部分内容阅读
近年来,中国主要的白酒企业都在积极努力进行数字化转型升级,在这个过程中,要想深度挖掘用户偏好和把握行业热点就必须对网络上的相关舆情信息进行充分分析。然而网络上的评论、新闻和动态都没有明确的类别标签,这增加了舆情分析的难度。如何有效分析大量的网络舆情文本是各个酒企都面临的问题。传统的舆情信息分析,大多是基于监督学习的模型且各个模型之间相互独立缺少联系,本文针对网络舆情数据样本量大且标注困难等问题,提出了新的解决思路。本文主要进行了以下研究:1)本文利用基于图卷积的半监督文本分类模型对舆情信息进行分类。网络爬虫采集的舆情信息杂乱无章,首先需要按照一定的标准进行主题分类。由于网络舆情数据量较大且标注数据成本过高,有标注数据占比较少,所以传统的有监督文本分类算法在这种场景下效果不理想。本文为了解决这个问题,提出了一种基于图卷积网络的半监督文本分类算法SS-GCN,将文本分类任务转化为图分类任务,实现了半监督学习,分类准确率为0.896。通过与经典的文本分类算法进行对比实验证实了基于图卷积的半监督学习的可行性和高效性。2)本文通过增加初始化聚类和倒排索引的方式对Single-Pass算法进行了改进。酒业舆情数据按主题分类之后,要进一步进行细粒度的话题检测,获得不同主题下的具体事件。改进的Single-Pass算法以SS-GCN模型生成的文档嵌入表示为输入,实现了动态话题检测同时减少了计算量提高了效率。改进后的算法CHI指数和DBI指数分别为14677和0.508均优于传统聚类算法,而且聚类速度明显加快,运行时间降幅达30.6%。3)舆情分析的另一个重要任务是情感分类,本文提出了 Attention-BiGRU-CNN模型。情感分类能够反应网络用户对某一事件的情感倾向,而文档级别的情感分类不是简单的句子情感叠加。Attention-BiGRU-CNN是基于attention的双向GRU和CNN结合的情感分类模型,融合了当下NLP领域主流技术attention、双向GRU和CNN网络,同时借鉴了计算机视觉领域的CBAM模块用于给卷积块进行attention。为了解决情感标签问题,采用了情感词典来计算文档的情感分值选取置信度较高的结果作为标签数据。Attention-BiGRU-CNN模型情感分类准确率为0.766,相比于其他模型有一定提升。