论文部分内容阅读
随着互联网的日益发展,股市投资者越来越倾向于通过网络平台获取金融信息和交流投资观点。网络平台包含着丰富的金融数据和投资者评论信息,这些信息包含了用户对市场的情感倾向,已经成为影响投资者心理和行为的重要因素。对金融社交网络中用户发表的评论进行分类,可以反映出用户的情感倾向。而股市中具有较大影响力的用户发表的评论不仅影响了普通股民的判断,还在某种程度上影响着个股甚至大盘的走势。为了快速、准确把握金融和证券市场的情绪波动,需要对股票评论进行情感分类从而得到投资者用户对市场的多空观点,同时将观点结果和大盘走势进行对比,构造出用户对股票涨跌的预测准确度特征,并与其自身相关特征结合进行用户影响力的计算和排名。随着深度学习的不断发展,越来越多的人开始把深度学习应用到情感分类的研究中。但是金融社交网络中的文本存在口语化、内容较少等问题,导致文本产生信息冗余和特征稀疏的问题,现有的很多情感分类方法无法充分考虑信息冗余和特征稀疏的问题。对于用户影响力的研究,传统社交网络用户影响力计算一般只根据用户的属性或者行为等特征去计算,缺乏结合具体领域知识构造的特征,并且缺少对构造的特征进行重要度区分的合理方法。针对以上金融社交网络的情感分类和用户影响力的研究中存在的问题,本文主要做了以下几个方面的工作:(1)本文提出了BA-CNN-LSTM(BERT&Attention based CNN-LSTM)情感分类模型。该模型综合考虑信息冗余和特征稀疏的问题,在卷积神经网络和长短期记忆网络融合模型的基础上,使用BERT(Bidirectional Encoder Representations from Transformers)模型替代以往的词向量转换模型,它综合考虑了字向量、文本向量以及位置向量等信息,并且在模型内部使用多头自注意力机制进行预训练任务,获得包含丰富语义信息的文本语义表示解决了特征稀疏的问题。并在长短期记忆网络模型的隐藏层引入注意力,给特征分配不同的权重,让模型重点关注重要词汇,从而解决情感分类研究中存在的信息冗余的问题。最后本文进行了多个对比试验,实验结果表明本文提出的情感分类模型效果要优于其他对比模型。(2)本文提出了一种新的用户影响力计算方法。该方法首先通过本文提出的主客观综合赋权法确定用户特征的权重大小,再使用加权求和的方式对用户影响力进行计算。并且结合了具体的领域知识,构造了用户互动频率、用户活跃程度、用户被关注度以及用户预测准确度等计算用户影响力的特征。通过实验进行对比,验证本文使用的主客观综合赋权法确定的权重,要比单独使用主观赋权法和客观赋权法确定的权重更具有合理性。(3)本文将文本情感分类结果和大盘走势进行对比构造了用户预测准确度特征,并把这一特征加入到用户特征中,结合用户的其他特征进行影响力的计算。