短文本情感分类技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:a522599301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术与高速移动网络的飞速发展,产生了海量的各类网络数据。其中人们最常涉及、使用的就是互联网络中的大量短文本数据。这类数据通常包含了人们的对待事物、商品以及各种事件的情感喜好和主观意见。无论是个人、企业、机构或者政府部门,都逐渐开始利用这一类短文本数据来辅助各种决策的制定。所以,对于网络短文本的情感分析有巨大的学术意义和应用价值。本文围绕短文本情感分类问题开展了一系列研究。主要工作及贡献如下:(1)针对短文本中关键情感特征提取困难的问题,提出了一种基于Word2vec结合PCA(Principal Components Analysis)的文本特征提取方法。首先利用Word2vec词嵌入工具在大型通用语料中训练得到文本的通用词向量。进一步得到文本的词向量矩阵,再对文本词向量矩阵中的每一列求和再平均得到文本的特征向量。然后对得到的文本特征向量进行PCA降维,并将降维后的文本特征作为文本的最终特征。最后将该特征作为SVM(Support Vector Machine)分类器的输入,进行文本情感倾向性分析。实验验证了该方法的有效性。(2)针对深度学习中文本表示通常只包含词的通用特征,而不包含词的领域相关特征的问题,提出了一种基于双向长短时神经网络(Bidirectional Long-Short Term Memory,BiLSTM)的特征扩展与集成文本情感分类方法。该方法首先通过在训练语料的基础上加入一定大小的外部领域相关语料得到文本的领域相关语料,再通过Word2vec工具获取文本的领域相关词向量以及领域相关文本特征。然后将文本的通用特征与领域相关特征结合得到文本的集成特征。最后,通过双层BiLSTM网络学习捕获文本集成特征的深层语义并判断文本的情感倾向。实验结果表明:基于特征扩展与集成的方法能进一步提高分类器的分类效果。(3)卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Network,RNN)的优缺点,提出了一种基于CNN-RNN的混合网络文本情感分类方法。该方法分别通过CNN和BiLSTM获取文本的局部特征和上下文特征,再将两个特征融合成为文本的最终特征。并在此基础上,利用LSTM(Long-Short Term Memory)神经网络捕捉文本特征所表示的深层次的文本情感语义,最终判断出文本的情感倾向性。实验表明:通过建立混合神经网络模型,融合两种网络模型的文本特征,能有效的提升文本情感分类的效果。
其他文献
IGBT模块以其独特的优良性能广泛应用于新能源发电、电力系统、电动汽车、轨道交通和家用电器等不同领域,但是IGBT模块由于集成度高、功率密度大的特点,其内部芯片温度较高,
固体氧化物燃料电池(Solid Oxide Fuel Cell,SOFC)是一种以电化学反应的方式将燃料的化学能直接转化为电能的新型发电技术。SOFC不受卡诺循环的限制,发电效率较高,总的发电转换率可达到50%60%,如果采用热电联供(Combined Heat and Power,CHP),总效率可达80%以上。为满足某公司的项目要求,论文针对2kW CE-1801型SOFC发电系统的相关内容进
《国家中长期教育改革和发展规划纲要(2010-2020年)》明确规定:“我国教育发展势必会受到信息技术的影响,必须高度重视信息技术在教育领域中的应用”。伴随互联网的发展,网络
新产品研发类项目对企业的长久发展至关重要,而新产品研发项目风险管理成为企业创新管理中尤为重要的一环。S公司的大尺寸轴承新产品开发项目,来源于市场产品的更新换代和客户的特定要求。由于产品本身的特点,应用涵盖范围广,商务和技术要求不一,其风险存在于商务方面的不确定性、应用技术方面的多样性、生产工艺方面的复杂性、项目管理方面的不系统性、原材料采购的不稳定性。S公司当前在大尺寸轴承新产品开发项目中的风险管
癌症的致命性在于它有很强的转移/侵袭性,肿瘤从增殖到转移是一个突变的过程,因此找出肿瘤维持准稳态和突变的关键因素非常重要。为了更加清楚癌症的转移机理,研究人员通过基
进入21世纪,伴随知识经济的迅速发展以及科学的综合化趋势、现代社会中需要解决的现实问题的愈发复杂性,传统单一学科的纵深发展和具有单一学科的“专才”研究生培养模式已经
在井下电缆传输系统中,OFDM系统作为核心技术,解决了符号间干扰和频谱资源利用率低等问题。但同时OFDM技术带来对符号定时同步的效果比较敏感的问题,如果出现定时误差会造成
高速铁路是我国一种重要的交通运输方式,而接触网系统在高速铁路供电系统中占据了举足轻重的地位,因此业内对于高速铁路接触网系统的供电可靠性就提出了比较高的要求。现阶段我国高速铁路接触网系统的运行维护数据随着高速铁路供电安全检测监测系统(6C系统)的投入运行,在不断的记录汇总当中。随着数据体量的不断增大与计算机技术的不断发展,建立一个基于高速铁路接触网的故障预测与健康管理系统就成为了提高其安全性与可靠性
量子信息学是量子力学和信息学等交叉形成的一门新兴学科,量子计算和量子通信是量子信息学的两大重要分支,纠缠态是其中重要的通信资源,在量子通信中有深远影响和广泛应用。2
哈萨克斯坦电信CDMA(Code Division Multiple Access,码分多址)网络在容量、覆盖和质量都有了大幅度的提高,已经覆盖了全部市区、一般城区、乡镇中心、重要交通干道及重要旅