论文部分内容阅读
随着互联网的高速发展,各种互联网信息如语音信息,图片信息,文本信息等也在爆发式的增长,我们每天都能接触到大量的多样的信息,比如来自新闻报导,博客,微博等各个渠道的文本信息。那么如何让对这些海量的信息进行快速、高效地分析和处理,让机器准确理解这些信息,经研究发现,基于高语义保持度的文本简化就是一个可行的方法。在短文本语义简化的研究中采用了以下几种方式和方法,一种是基于传统的循环神经网络方法;一种是基于长短时记忆模型的方法;还有一种是基于时间递归序列模型的方法。主要研究工作如下:1.研究了传统循环神经网络工作原理,及其训练模型和效率,文本简化在循环神经网络中的应用,参考了相关文献以及对比了相关研究中的优劣势。2.分别建立传统循环神经网络模型、LSTM(Long Short-Term Memory)模型、seq2seq(Sequence to Sequence)模型以及TRSM(Time Recursive Sequence Model)模型,分析各个模型的实验原理、训练方法以及优缺点。对比各个模型并适当结合几个模型再建立针对短文本语义简化任务最高效的模型。3.针对传统循环神经网络训练算法无法处理梯度消失和梯度爆炸等问题,结合基于循环神经网络建立的LSTM模型和seq2seq模型,提出时间递归序列模型TRSM,处理序列中间隔和延迟相对较长的输入,再使用BPTT(Back Propagation Trough Time)反向传播算法对中文微博语料库进行训练。4.建立三组不同的实验作为对比,以原始参数值、改变训练循环次数和改变学习速率为差异项作对比,再对实验结果进行分析。实验结果表明TRSM模型处理后的微博文本更加简洁精炼,更适合文本语义的提取,大大减少了计算量,文字缩减率达到60%以上,语义保持率达到1.8,简化了用户要处理的大量信息,处理后结果能够更好地用于几个关键的中文语义处理任务。