基于神经网络的中文文本情感分类及其在舆情分析中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:tanwenbin89
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来伴随互联网技术的飞速发展,尤其是移动互联网技术的发展,网民可以随时随地通过丰富且便捷的途径发表自己对时政热点事件的观点看法。同时,互联网上的文本数据也呈现了井喷式地增长,面对如此庞大的文本数据,如何通过挖掘网民对热点事件的情感态度并且提取有价值的关键信息,进而对舆情进行正确的引导是目前亟待解决的问题。对文本数据进行情感分类并从不同的情感类别中挖掘关键信息能够有效地解决这一问题。因此,文本情感分类技术和关键信息提取技术被广泛地应用在电子商务、电子政务、信息管理等领域。目前,较为成熟的文本情感分类技术主要针对的是英文文本,针对中文文本情感分类的技术相对不够成熟。相较于英文文本,中文文本在语法结构、语义内容等方面具有较大的差异,所以不能直接将针对英文文本的情感分类技术直接应用于中文文本。因此,本文结合中文文本特征利用神经网络的方法对中文文本进行情感分类研究。当前,研究学者主要将文本情感分为正向和负向两大类,然而这种分类较为粗略,不能分析文本中包含更深层的情感倾向,因此,本文对正向和负向情感大类进行了更深层的情感小类划分,分别构建了大类情感分类模型以及小类情感分类模型。另一方面,研究学者对于中文文本的情感分类研究主要聚焦于词语或句子粒度,但是在中文文本语义中,不同的词语组合会传递不同的情感倾向,如果仅从词语粒度分析文本的情感类别,容易降低对文本情感分类的准确率。因此,本文将文本细化为词语、短语以及句子粒度,同时分别构建了基于这三种粒度的神经网络分类模型,获得了基于不同粒度的文本情感分类结果。此外,本文还融合了这三种粒度的模型得到的词语特征、短语特征以及句子特征,进一步获取了文本的多层次情感特征,最后利用多级情感分类网络实现了对文本的多情感分析。文本的情感分类结果不仅可以了解作者的主观情感倾向,不同情感的文本还可以传递不同价值的信息,因此还可以将文本的情感分类结果应用于舆情分析中关键信息的提取。为了区分不同情感类别对文本的价值贡献,本文在传统的词频统计方法上引入了文本的情感分类结果,提出了一种基于文本情感特征的关键信息提取方法。通过爬取2017年两会期间新浪微博中“一带一路”相关的文本数据集,对比分析了传统的关键信息提取方法和基于文本情感特征的关键信息提取方法的结果,实验结果表明,本文提出的基于文本情感特征的关键信息提取方法能更准确地提取文本数据中的关键信息,实现了对互联网中繁杂的文本数据中关键信息的精准提取。
其他文献
用溶液共混法在常温常压下制备了不同比例的纳米羟基磷灰石/壳聚糖/羧甲基纤维素三元复合骨修复材料。用燃烧实验、IR、XRD、SEM及TEM对复合材料的组成结构及形貌进行了分析
线路在轻载运行下导致电能表计量出现较大误差,为提高电能表在各种负荷情况下其电能计量的准确性,对影响电子式电能表准确计量的原因进行了分析,并提出了相应解决措施。
大数据时代,越来越多的领域出现了对海量、高速数据进行实时处理的需求。如何对大数据流进行抽取转化成有用的信息并应用于各行各业,变得越来越重要。传统的批量机器学习技术
SM2椭圆曲线公钥密码算法(简称SM2算法)于2010年12月首次公开发布,2012年成为中国商用密码标准(标准号为GM/T 0003—2012),2016年成为中国国家密码标准(标准号为GB/T32918—2
目的:探讨青年缺血性脑卒中的病因、临床特点等。方法:对71例青年缺血性脑卒中进行回顾性分析和总结。结果:青年缺血性脑卒中的发病率为8.2%,40~45岁发病率最高。缺血性脑卒
本文基于笔者多年从事国土信息化建设的相关工作经验,以城市地籍图形信息系统总体设计为研究对象,论文首先分析了系统建设的目标、原则和总体框架,进而探讨了系统的功能设计,
幼儿期是人生中重要的发育期,对一切事物都充满热情和好奇,也需要人们对其学习进行有效的指导。中国学生发展核心素养的目标和要求的提出,对于幼儿教育具有很强的指导和借鉴
本文提供了碱催化下福尔马林沉淀物解聚的方法,该方法具有设备简单,条件温和,反应速度快等特点,有一定的理论和应用价值。
原有城域网WLAN(无线局域网)业务分配的是公网IPv4(因特网协议版本4)地址,为解决IPv4地址紧张问题,提出了一种NAT444(运营级网络地址转换)场景下的WLAN业务部署实现方案,并有