中文短文本情感分析关键问题研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:xujuenrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络媒体时代,人们通过微博、短视频等社交平台对各类热点事件发表相关言论和看法,这些文本内容简短、表达幽默,能充分反映人们的内心情绪。挖掘这些短文本的潜在情感倾向性,分析和预测用户行为,可以为各个领域的舆情监管工作提供辅助支持。目前,面向网络短文本的情感分析算法研究已取得了一定的成果,但仍存在一些问题,例如,网络新词的不断涌现造成分词效果较差;短文本表现形式的复杂导致传统特征选择结果不佳;特征学习不充分造成情感分类准确率较低等。针对上述问题,本文主要对短文本中新词发现、基于信息增益的特征选择及情感分析算法等关键问题展开研究。本文主要研究内容包括:1.针对传统新词发现算法忽略了单字新词和句法语义信息对识别结果的影响等问题,提出一种基于统计量与相似性的网络新词发现算法。该算法以字为粒度,依次计算词频、最大增强互信息等统计量,获取具有高成词概率的候选新词集;利用基于句法和语义的改进相似性计算模型过滤无效新词,得到最终新词集合。实验结果表明该算法能有效识别网络新词,改善分词效果。2.针对传统信息增益未考虑特征词的类别词频分布差异性及情感倾向性等问题,提出一种基于改进信息增益的文本特征选择算法。该算法在计算信息增益时引入词频调节因子和类分布情况因子,均衡各类别词频分布情况;加入基于扩充情感词典的情感极性因子,将特征情感信息融入特征选择算法中。实验结果表明该算法提升了情感分类精度,在不均衡数据集上效果更优。3.针对基于统计的特征选择忽略了特征的语义信息、基于深度学习的特征提取不包含特征的统计和情感信息等问题,提出一种基于特征融合的双向长短时记忆网络(Bi-directional Long-Short Term Memory,Bi LSTM)短文本情感分析算法。该算法利用改进的特征权重计算得到包含统计权值和情感信息的词汇特征;基于词向量技术获取具有上下文信息的语义特征;最后融合两类特征训练Bi LSTM模型。实验结果表明在短文本情感分类任务中,该算法可行且有效。
其他文献
在线社交网络的用户关系在一定程度上是现实用户关系的映射。与面对面交流相比,在线社交网络具有更强的信息发布、交流和共享能力。热门事件仅需几分钟就能在数百万网络用户中传播开来,继而成为热搜。为了追查和快速控制谣言、热点事件、群体情绪乃至国际局势的趋势,可收集在线社交网络中与特定话题相关的数据,进行在线舆情分析。为了收集并分析特定话题下的重要数据,需要找到与特定话题对应的有影响力的用户集合,即找到具有最
无线感知作为新兴的非传感器感知的重要技术,在动作识别、身份认证、跌倒检测等诸多方面被广泛应用。由于无线信号不具备可视化的特征,研究者往往无法判别数据样本是否合规,也不清楚数据样本分布是否广泛多样。不合规样本的存在使数据集质量下降,数据分布不广泛造成无线感知识别模型泛化能力差。本文围绕去除不合规无线数据样本、提升感知识别模型泛化能力两个问题开展研究,提出了相应的解决方法,并在两类无线数据集(CSI和
随着信息技术的飞速发展,传统产业和新兴互联网经济的深度融合过程中产生了海量数据。存储技术及计算技术的发展,直接推动了大数据产业的发展壮大。数据量的急剧增长,催生了云计算和数据中心在全球范围内的普及。连接远程数据中心之间的骨干网上的数据传输任务十分繁重。云运营商用昂贵的高带宽链路为各种用户提供大数据传输服务。如何通过提供高质量的服务来赚取可观的利润是运营商所关注的核心问题。科学合理的定价机制是保障运
为掌控在线舆情及国际局势走势,政府机关、应急管理部门等现实世界的合法机构与组织需隐蔽地收集并分析来自国内外新闻媒体、特定网站以及热门在线社交平台的数据,避免被相关人士追根溯源。反溯源的本质在于通过特定技术隐藏信息浏览轨迹和搜索意图,防止网站来访者被溯源跟踪。构建安全的受控入网环境系统,提供一个安全的、受控的、反IP追踪的安全互联网入网环境,实现反溯源。溯源的主要手段为重构来访者的访问路径,因此,构
在《新一代人工智能的发展规划》和《教育信息化“十三五规划”》的推动下,人工智能、云计算、大数据、物联网、计算机视觉等信息技术深入推动教育信息化改革,学生课堂行为识别分析成为教育研究的重点。针对目前研究中缺少相应的大规模视频数据集,识别容易受到性别、体型、复杂场景和相似动作等因素干扰的问题,本文做出以下贡献:本文选取骨架信息减少受遮挡的影响,对比选出适用于课堂场景的姿态估计算法,同时提出多维特征融合
航拍图像指使用航拍飞行器携带摄影设备,在空中对地面物体进行拍摄,从而得到的航拍目标信息,被广泛应用在地貌测绘、军事侦察等众多重要领域内。因此航拍图像的清晰度研究有着十分重要的现实意义。本文分别从依赖图像退化模型的传统算法和依赖神经网络模型的深度算法两个方面,对航拍图像中广泛存在的运动模糊问题展开研究。传统算法研究过程中:首先,结合航拍成像特点进行理论分析,估算航拍运动模糊核的像移长度和像移角度两个
计算关联成像作为一种新型的成像方式,具有传统成像不具备的抗干扰性强的特点,近年来在水下成像、遥感成像中发挥着其独特的作用。在散射介质下的计算关联成像中,如水下计算关联成像,测量矩阵对成像效率和成像结果的质量都至关重要。本文围绕存在散射介质的不同测量矩阵计算关联成像进行了研究,主要工作内容如下:1.通过比较散射介质中计算关联成像应用的不同的测量矩阵,研究了应用不同测量矩阵的成像速度和成像质量。通过选
三维点云配准是寻找两个或多个三维点云之间的最优空间变换关系,使其能够在空间中达到良好的匹配,它是计算机视觉、模式识别和智能机器人等领域的关键技术之一,具有重要的理论研究意义和实际应用价值。三维点云配准主要分为刚体配准和非刚体配准两大类,对于包含噪声、外点及数据缺失的点云非刚体配准算法研究仍是当前点云配准领域的一个热点和难点问题。针对包含噪声、外点及数据缺失的三维点云非刚体配准,本文在深入研究传统迭
视频超分辨率重建是一种根据低分辨率视频恢复高分辨率视频的技术。视频超分辨率技术是计算机视觉领域中的经典和热点研究内容之一。视频超分辨率重建旨在利用视频帧序列的时空相关性生成精度高,且感知质量好的高分辨率视频。本论文重点围绕基于深度学习方法提高视频的感知质量问题展开研究。在深入研究先进的基于深度学习的视频超分辨率方法的基础上,提出了一个新的光流补偿结合多特征鉴别生成对抗网络OFC-MFGAN,并将其
近年来,深度卷积神经网络(Deep Convolution Neural Networks,DCNN)在单幅图像超分辨率(Single Image Super-Resolution,SISR)中得到了广泛的应用。然而,大多数现有的基于DCNN的SISR方法往往会产生过于平滑的输出,对图像细节信息的恢复不够理想。为了解决上述问题,本文对基于小波变换和自注意力机制的图像超分辨率重建算法进行了相关研究,