论文部分内容阅读
随着互联网技术的不断发展、网民数量的逐年增加和移动设备的快速普及,社交网络上存在大量网络用户对热点话题发布看法和表达情感。用户对于热点话题的情感倾向具有很高的商业价值、政治价值和社会价值。社交网络中如微博的内容,语言风格自由、新词频繁出现,与传统的热点话题发现、情感分析有着很大的不同。因此,本文从新词发现、热点话题发现、情感分析三个方面,对社交网络热点话题情感分析任务进行研究,具体工作如下:首先,本文研究并优化了统计量结合过滤规则的新词发现方法。通过基于统计的方法用统计量来衡量候选新词的凝固度和自由度,并制定了多种过滤规则来提高新词发现的效果。实验证明,统计量结合过滤规则的方法比基于统计的方法和基于规则的方法有更好的效果。其次,本文提出了一种语义匹配模型增强的热点话题发现方法,该方法主要包含语义匹配模型增强的短文本聚类方法(STCSMM)与基于TF-IDF的话题关键词提取。STCSMM通过训练语义匹配模型来学习聚类中的文本表示和向量距离计算。实验表明语义匹配模型增强的热点话题发现方法可以实现更有效的热点话题发现。其中,STCSMM在聚类效果评价指标Jaccard系数和FM指数上都取得了最好的效果,基于TF-IDF的话题关键词提取方法准确高效。再次,本文设计了一种基于BERT句向量的双通道特征模型用于对社交网络的文本进行情感分析。该模型通过结合BERT句向量、Bi LSTM模型以及Attention机制作为双通道结构,融合了字级别嵌入和词语级别嵌入、Transformer类型的特征和RNN类型的特征,实现了文本的情感分类。经过实验证明了基于BERT句向量的双通道特征模型的有效性,通过与现有方法比较,该方法在评价指标F-measure上有着更好的表现。最后,本文基于上述的研究,设计、实现了一个社交网络热点话题情感分析系统。该系统获取社交网络平台上的用户信息和内容,对数据进行处理和分析,系统功能包括新词发现、热点话题发现、情感分析等,并将结果可视化地展示给用户。该系统可以挖掘社交网络中出现的新词,聚焦热点话题,并且从中得到情感分析的结果来帮助商业机构和政府部门做出决策。