基于Attention-Based LSTM模型的文本分类技术的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:mmg5fc1cc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域的一个经典的研究方向,传统的研究涉及到文本的预处理、文本特征的提取、机器学习分类器训练等方面。随着深度学习技术在图像识别,机器翻译等领域取得了很大的进展,深度学习模型被证明在数据预处理和特征提取方面有着很大优势。本文在研究分析和总结文本向量表示技术和深度学习模型LSTM原理的基础上,对运用深度学习模型解决文本分类问题做了深入的研究。本文的主要研究工作如下:(1)针对文本分类中数据表示的高维度难以训练和向量表示特征无关的问题,采用了Word Embedding机制,将文本数据映射到一个低维度的实数向量,避免了高维度的输入导致LSTM模型产生维度灾难的问题。同时Word Embedding机制训练出的词向量具有同义词向量相似的特征,作为LSTM模型的输入,提高了分类器的性能。(2)针对文本分类的特征选择问题,本文设计了Attention-Based LSTM模型用于提取特征,其中LSTM模型解决了传统RNN的梯度消失的问题,通过3种“门”的控制,解决了RNN模型训练中的长期依赖问题。同时本文通过Attention-Based的方法,得到含有输入序列节点注意力概率分布的语义编码,并将其作为分类器的输入,减少了特征向量提取过程中的信息丢失和信息冗余。(3)针对LSTM模型的前向依赖问题,本文设计了组合正逆序Attention-Based LSTM模型,组合正逆序向量作为特征向量,将Bi-LSTM模型作为对比模型,探究文本上下文对文本分类的影响。
其他文献
基于逆运动学方法设计了无人机四维制导系统.基本姿态控制器采用基于在线神经网络的非线性动态逆控制器.动态逆控制器用来对消无人机的非线性,在线神经网络补偿对消不精确引
在全面停伐的大背景下,国有森工企业的传统发展方式难以为继,国有林区陷入社会发展困境、林区职工民生困难、创新乏力等问题。根据企业转型的相关理论,对国有森工企业转型创
本文以探究植物叶面吸收Sr/Cs的阻控技术为核心目标,以红叶石楠(Photinia serrulata)、柚子(Grapefruit)、桂花(Osmanthus)、八角金盘(Fatsia)四种植物为实验材料,首先系统地
对二维非结构三角形网格上Euler方程有限体积解法的格点格式进行了一些改进,重点在于提高数值解的精度,细致处理人工粘性项的尺度因子以及对该项建立适当的边界条件;发展一种
文章在对黎平天生桥景区旅游地质开发现状调查的基础上,结合存在的问题和当今地质旅游发展特别是地质公园开发利用的发展趋势,提出深度开发对策与建议。
随着我国教育体系的不断深化改革,对于学生身体素质培养越来越受重视。篮球课程作为体育教学中较为普遍的课程,也逐渐成为很多学生比较喜爱的一项体育课程。传统的篮球教学模
介绍了一种可用于电信、航空航天等领域的新颖的配电系统.这种混合式配电系统结合了正弦电压型配电系统和电流型配电系统的优点,具有诸如非电接触功率传输,无须熔断丝保护、