论文部分内容阅读
文本分类是自然语言处理领域的一个经典的研究方向,传统的研究涉及到文本的预处理、文本特征的提取、机器学习分类器训练等方面。随着深度学习技术在图像识别,机器翻译等领域取得了很大的进展,深度学习模型被证明在数据预处理和特征提取方面有着很大优势。本文在研究分析和总结文本向量表示技术和深度学习模型LSTM原理的基础上,对运用深度学习模型解决文本分类问题做了深入的研究。本文的主要研究工作如下:(1)针对文本分类中数据表示的高维度难以训练和向量表示特征无关的问题,采用了Word Embedding机制,将文本数据映射到一个低维度的实数向量,避免了高维度的输入导致LSTM模型产生维度灾难的问题。同时Word Embedding机制训练出的词向量具有同义词向量相似的特征,作为LSTM模型的输入,提高了分类器的性能。(2)针对文本分类的特征选择问题,本文设计了Attention-Based LSTM模型用于提取特征,其中LSTM模型解决了传统RNN的梯度消失的问题,通过3种“门”的控制,解决了RNN模型训练中的长期依赖问题。同时本文通过Attention-Based的方法,得到含有输入序列节点注意力概率分布的语义编码,并将其作为分类器的输入,减少了特征向量提取过程中的信息丢失和信息冗余。(3)针对LSTM模型的前向依赖问题,本文设计了组合正逆序Attention-Based LSTM模型,组合正逆序向量作为特征向量,将Bi-LSTM模型作为对比模型,探究文本上下文对文本分类的影响。