论文部分内容阅读
每当一个社会热点案件产生时,许多新闻媒体和自媒体都会在互联网上发布许多与案件相关的新闻报道。而新闻中的观点和情感倾向能够体现出网络媒体对这些案件的态度及看法,对案件舆情产生重大影响。因此,对案件相关新闻的观点句抽取及情感分析能够帮助分析案件舆情,正确地引导舆情,降低案件舆情事件所产生的消极影响。本文从互联网上获取案件相关的新闻数据,本文的研究目的是从这些新闻中抽取出能表达案件相关观点的句子,并进一步判断出这个观点句的情感极性。而传统的观点句抽取及情感分析方法在这种特定领域中,无法利用其领域特征,导致其效果较差。所以,本文根据案件相关新闻的特点,提出了一种能充分结合案件信息的观点句抽取及情感分析方法,取得了以下研究成果:(1)案件相关的新闻数据获取及数据集的构建由于网上没有公开的案件相关新闻数据集,因此本文首先通过爬虫的方式从互联网上获取了大量案件相关的新闻数据,然后将这些数据进行相关的预处理并存入数据库中,最后根据本文的任务构建了案件相关新闻观点句抽取数据集、案件相关新闻观点句的情感分析数据集。(2)基于Bi LSTM结合Attention的案件相关新闻观点句抽取方法案件相关新闻观点句是对某个案件的主观观点,因此判断案件相关的新闻中的句子是否为观点句,需要考虑到更多的文本信息。所以我们通过BERT将案件相关新闻中的词表征为词向量,以此获得更多的词信息。然后将这些词向量输入Bi LSTM神经网络中来获取到案件相关新闻中的语义信息。最后,我们引入注意力机制来关注到对案件相关新闻观点句抽取任务更重要的信息,以此来提高效果。实验表明,该方法在案件相关新闻的观点句抽取任务上取得了较好的结果。(3)基于CNN-Bi LSTM+Attention的案件相关新闻观点句的情感分析方法由于抽取到的案件相关新闻观点句带有情感,而我们不知道其情感偏消极还是积极,因此对观点句进行情感分析很有必要。而这种和案件相关的观点句是对某个案件的看法,其句子内部存在许多情感特征,如何有效地提取这些特征便成为了本文重点。因此,我们首先通过BERT将观点句中的词进行向量表征,以此学习到更多的词信息。然后把这些向量传入到CNN中,通过多个卷积核进行卷积,以此学习到句子中的多种局部特征(包括情感特征),得到的特征向量再输入到Bi LSTM中,通过LSTM获取句子中的序列信息以及更多的语义信息,将这层的输出再经过Attention来关注到更重要的情感信息,最后利用softmax函数对观点句进行情感极性分析,即判断观点句是偏积极还是消极。实验表明,该方法可以有效地提升案件相关新闻观点句的情感极性分析的准确性。(4)案件相关新闻的观点句抽取及情感分析原型系统先从网上获取案件相关的新闻数据。再将我们的观点句抽取模型及情感分析模型进行集成。最终将案件相关的新闻信息、案件相关新闻观点句信息、观点句的情感信息通过界面化的方式展示出来。