论文部分内容阅读
近年来伴随互联网技术的飞速发展,尤其是移动互联网技术的发展,网民可以随时随地通过丰富且便捷的途径发表自己对时政热点事件的观点看法。同时,互联网上的文本数据也呈现了井喷式地增长,面对如此庞大的文本数据,如何通过挖掘网民对热点事件的情感态度并且提取有价值的关键信息,进而对舆情进行正确的引导是目前亟待解决的问题。对文本数据进行情感分类并从不同的情感类别中挖掘关键信息能够有效地解决这一问题。因此,文本情感分类技术和关键信息提取技术被广泛地应用在电子商务、电子政务、信息管理等领域。目前,较为成熟的文本情感分类技术主要针对的是英文文本,针对中文文本情感分类的技术相对不够成熟。相较于英文文本,中文文本在语法结构、语义内容等方面具有较大的差异,所以不能直接将针对英文文本的情感分类技术直接应用于中文文本。因此,本文结合中文文本特征利用神经网络的方法对中文文本进行情感分类研究。当前,研究学者主要将文本情感分为正向和负向两大类,然而这种分类较为粗略,不能分析文本中包含更深层的情感倾向,因此,本文对正向和负向情感大类进行了更深层的情感小类划分,分别构建了大类情感分类模型以及小类情感分类模型。另一方面,研究学者对于中文文本的情感分类研究主要聚焦于词语或句子粒度,但是在中文文本语义中,不同的词语组合会传递不同的情感倾向,如果仅从词语粒度分析文本的情感类别,容易降低对文本情感分类的准确率。因此,本文将文本细化为词语、短语以及句子粒度,同时分别构建了基于这三种粒度的神经网络分类模型,获得了基于不同粒度的文本情感分类结果。此外,本文还融合了这三种粒度的模型得到的词语特征、短语特征以及句子特征,进一步获取了文本的多层次情感特征,最后利用多级情感分类网络实现了对文本的多情感分析。文本的情感分类结果不仅可以了解作者的主观情感倾向,不同情感的文本还可以传递不同价值的信息,因此还可以将文本的情感分类结果应用于舆情分析中关键信息的提取。为了区分不同情感类别对文本的价值贡献,本文在传统的词频统计方法上引入了文本的情感分类结果,提出了一种基于文本情感特征的关键信息提取方法。通过爬取2017年两会期间新浪微博中“一带一路”相关的文本数据集,对比分析了传统的关键信息提取方法和基于文本情感特征的关键信息提取方法的结果,实验结果表明,本文提出的基于文本情感特征的关键信息提取方法能更准确地提取文本数据中的关键信息,实现了对互联网中繁杂的文本数据中关键信息的精准提取。