基于多粒度序列注意力机制的短文本分析

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:luxi0194
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,海量数据不断更新,数据的类型多种多样,其中文本是最直接和最常见的组织形式之一。挖掘文本的有效信息可更快速、准确地了解人们的观点和情感倾向等内容,有利于人们掌握市场动态、社会舆情、网络安全态势等。技术日趋成熟,人们期望能够让机器像人类一样思考,让它可以在诸多文本中过滤掉冗余信息,将核心内容合理地组织、呈现出来。随着生活节奏的逐步加快,越来越多像简讯、评论等字符数量较少的“快餐式”信息涌入生活中,如何快速准确地从大量短文本信息中获取有价值的信息是值得人们深思。因此,本文尝试模拟人类的认知过程并结合多粒度的思想,提出了一种基于多粒度序列注意力机制的短文本分析方法,主要研究如下:1.提出一种基于序列注意力机制的卷积神经网络对URL进行异常检测。该模型用于检测网络中的异常流量。URL全称统一资源定位符,是由一些列字符组成的用于向服务器请求资源的标识符,其具有一定的语义信息并且组成它的字符数量相对较少,它是属于短文本的一种。针对该问题提出了由五层网络组成的检测模型,首先,使用word2vec对URL进行编码,然后使用卷积进行特征自学习,与此同时添加了一个外部语言模型来帮助模型给恶意代码区域赋予更高的注意力值,最后使用最大池化层和全连接层得到最终结果。该模型在真实的URL数据集上验证,不仅能够有效检测URL是否为异常并判定其类型,还可以定位恶意代码区域。2.提出一种基于注意力机制的评论情感分析和情感词检测方法。该模型对评论的情感倾向从不同粒度角度分析。模型结合了注意力机制,使用卷积神经网络进行特征自提取并学习细粒度信息。卷积神经网络的输出用作递归神经网络的输入。递归神经网络的优势在于对全局信息的把握,它可从粗粒度上学习文本信息。该模型中的注意机制自适应地计算不同上下文中每个单词的权重并对词语自适应地关注。该模型可捕获评论所传递的情绪,并自适应地计算情感词的情感极性,在评论中定位情感词的位置。它能够避免预定义情感词典无法适应不同语境的问题,与此同时也避免了不同语种的限制。
其他文献
货币质量管理是以货币质量为核心,建立起一套科学严密高效的质量体系,以提供货币或货币流通服务的活动。本文通过汇总整理部分发达国家的货币流通管理经验,结合我国实际,提出
电动车的发展具有广阔的市场前景。介绍了一种可靠的定子铁芯外圆加工的机械结构,对切削的刀具进行选定。电动机定子铁i卷外圆精车机解决了现阶段定子铁芯外圆加工效率低下,加
1933年9月下旬,蒋介石开始对中央苏区进行第五次“围剿”。中央红军与国民党进行了历时半年多的战争,红军损失惨重,苏区无法自保,红军被迫开始战略转移。由于当时苏区的政治资源
自中央提出宗教与社会主义社会相适应以来,藏传佛教以其适应性强的特点很快实现了社会适应,随着全球化时代的到来,藏传佛教逐步跨越传统民族宗教的边界,开始向世界宗教发展,
目的:探讨胃旁路转流手术对非肥胖2型糖尿病(T2DM)及前期患者的临床治疗作用。方法:回顾分析非肥胖性T2DM及前期患者因胃或壶腹部疾患行胃大部切除或全胃切除后不同消化道重建方
目的:研究MKS001、XSJ002、MGS003、NKD004四种药物体外对乙型肝炎病毒的抑制作用,为乙型肝炎病毒的治疗及治疗机制提供新的探索思路和途径。方法:HepG2.2.15细胞是由HBV全基
四旋翼飞行器具有飞行姿态灵活、稳定性强、结构简单等特点,因而被广泛应用于火灾观测、影视拍摄、快递运输、电力巡检、新闻报道等领域,执行这些任务需要对四旋翼飞行器位置和姿态做出准确和稳定的控制。传统四旋翼飞行器依靠惯性测量单元定高悬停时会出现漂移现象。研究人员加入了GPS传感器以修正位置,但在室内或GPS信号差的环境中,无法准确定位。此外,四旋翼飞行器的姿态控制常常会受到高频信号的干扰,而传统PID控
服务融合和创新是影响制造企业服务化转型、价值链升级的关键因素,运用Salop差异化模型,分析制造企业服务化过程中增值服务产生的价值增值作用和制造业服务化促进企业价值链
<正>随着我国工业化进程的发展,发电装机容量不断加大,电网中电力电子元件的使用也越来越多,致使大量的谐波电流注进电网,造成正弦波畸变,电能质量下降,不但对电力系统的一些
<正>今年以来,国家信息安全领域热浪叠出,迥然不同与以往。各项政策和举措步伐明显加快,超出人们的预期。5月22日,国家互联网信息办公室发言人姜军宣布,为维护国家网络安全、