论文部分内容阅读
目前,伴随着移动互联网和智能手机迅速的发展和普及,人们正在享受互联网时代所带来的巨大福利,比如:网络聊天,收发邮件,阅读实时热点新闻,网络购物甚至是购买互联网金融产品等。正是由于互联网时代网民的活跃,他们的网络活动将会产生大量的网络信息。这些活动带来的网络信息包含有人们的个人观点或者是情感,这些观点加上发达的社交网络会影响到其他人对社会事件,公共人物或者是政策的看法甚至是可能影响到他人的网络购物行为。如今互联网是人们日常获取信息的主要来源,因此这些互联网的文本数据无论是对于商业还是学术研究都有着巨大的价值。目前,互联网中文本的舆情分析方法和应用场景正受到学者们的大量研究,我们将在第一章和第二章介绍目前包含情感分析在内的文本分析的研究情况和常用技术。现有的文本情感分析的方法主要有三种一种是基于情感词词典的文本情感分析方法,还有一种基于传统的机器学习的方法转化为文本分类问题,最后一种是使用深度学习的方式。由于互联网的发展,互联网数据快速的增长,使得人们快速定位,获取,梳理网络信息变得越来越困难,同时现有研究对舆情值的刻画较为粗糙,没有考虑到时间因素的影响,对舆情的动态变化过程也缺乏定量刻画,难以准确发现舆情演化的动态过程和关键要素。我们在本文中将会使用情感词词典结合传统机器学习的方式,首先提出建设可扩展领域情感词词典的可行方案,接着改进舆情值的量化方法并提出一种新的基于时间窗口的舆情异动量化模型,通过分段线性回归的方式得出舆情在不同的时间段内的静态表现,再利用拟合的趋势线夹角变化来刻画出舆情随时间的变化。最终我们可以使用舆情异动值进行一些实验预测,比如预测某只关心股票未来的趋势,电影的票房或者社会话题的爆发。在实践意义上,可以使用本文提出的基于分段线性回归的舆情异动模型确定新闻、微博或者其他社会媒体的短期或者长期内舆情异动的量化值,即时间序列相关的舆情变化情况,同时我们可以为互联网金融风险的管理提供相应的帮助,在互联网金融时代具有相当大的实践意义和价值。本文实验主要以在中国的A股为例,实验的数据集使用2015年1月1日至2017年5月1日期间,网络中的主流媒体、论坛中经济板块的新闻,以及高院的所有关于企业的判决书,同时我们通过对比其他常用算法,构建一个完整的金融文本分析模型,帮助专家,学者,股民等更加高速有效的获取金融情感信息,为投资或者研究提供依据。实验结果表明本文所提舆情异动模型比传统舆情预测有更高的准确率和稳定性。本文所提模型的准确度与传统模型相比平均高出12.5%;与表现最差的RF模型相比,本文所提模型的准确度平均高出19.1%。我们将在第一章中介绍舆情分析国内外发展现状,在第二章中介绍舆情分析可能涉及到的相关技术,在第三章中介绍领域相关情感词词典的生产,第四章中介绍舆情异动算法的主体部分,在第五章中介绍实验以及结论,最终在第六章中进行总结和展望。