基于循环神经网络的文本简化

来源 :广西民族大学 | 被引量 : 2次 | 上传用户:times0927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,各种互联网信息如语音信息,图片信息,文本信息等也在爆发式的增长,我们每天都能接触到大量的多样的信息,比如来自新闻报导,博客,微博等各个渠道的文本信息。那么如何让对这些海量的信息进行快速、高效地分析和处理,让机器准确理解这些信息,经研究发现,基于高语义保持度的文本简化就是一个可行的方法。在短文本语义简化的研究中采用了以下几种方式和方法,一种是基于传统的循环神经网络方法;一种是基于长短时记忆模型的方法;还有一种是基于时间递归序列模型的方法。主要研究工作如下:1.研究了传统循环神经网络工作原理,及其训练模型和效率,文本简化在循环神经网络中的应用,参考了相关文献以及对比了相关研究中的优劣势。2.分别建立传统循环神经网络模型、LSTM(Long Short-Term Memory)模型、seq2seq(Sequence to Sequence)模型以及TRSM(Time Recursive Sequence Model)模型,分析各个模型的实验原理、训练方法以及优缺点。对比各个模型并适当结合几个模型再建立针对短文本语义简化任务最高效的模型。3.针对传统循环神经网络训练算法无法处理梯度消失和梯度爆炸等问题,结合基于循环神经网络建立的LSTM模型和seq2seq模型,提出时间递归序列模型TRSM,处理序列中间隔和延迟相对较长的输入,再使用BPTT(Back Propagation Trough Time)反向传播算法对中文微博语料库进行训练。4.建立三组不同的实验作为对比,以原始参数值、改变训练循环次数和改变学习速率为差异项作对比,再对实验结果进行分析。实验结果表明TRSM模型处理后的微博文本更加简洁精炼,更适合文本语义的提取,大大减少了计算量,文字缩减率达到60%以上,语义保持率达到1.8,简化了用户要处理的大量信息,处理后结果能够更好地用于几个关键的中文语义处理任务。
其他文献
本文介绍了南京航空航天大学机电学院基于3D打印创客平台进行的创新人才培养模式探索。3D打印作为一种最容易将设计转化为现实的工具,目前已经受到科教领域的充分关注,但系统
目的:临床上致病性地霉有林生地霉和白地霉等,林生地霉(Geotric hum silvicola)为新近发现的一种罕见地霉,首次从巴西果蝇和印度柞蚕幼虫身上分离出来[1]。2002年,我科从一例
<正>《世界真好》是由英国的吉莉安.洛贝尔和丹尼斯.霍华斯共同合作完成的,林夕将其翻译成中文,是湖北少年儿童出版社出版的一本世界优秀绘本。《世界真好》是大开本,以暖色
中国古代戏剧的地域性特征,以剧类唱腔为身份标示至明代进一步强化。因雅俗、南北等文化政策和观念影响,明代官方的戏剧管制政策对曲腔的流衍多所禁限,一些文人亦对依托一定
前言FA基因是在Fanconi氏(Fanconi anemia FA)贫血中发现的,目前已经证实有11种亚型(分别为A、B、C、D1、D2、E、F、G、I、J和L)。关于FA作用机制提出FA复合物的两个作用模型
用四种聚烯烃弹性体对聚碳酸酯(PC)进行了增韧改性。探讨了不同种类和用量的增韧剂对聚合物共混物力学性能的影响。结果表明,EVA的加入使共混物韧性改善最明显,当其用量为15%时,材
某碳纤维增强塑料机载机箱两端开放,且四边均有内侧凹,拟采用碳纤维织物浸渍树脂铺叠,多层交错,然后热压的工艺成型。据此成型需求,设计开发了组合式的内部模块与外部模块的
为解决传统语音实验室教学功能较为简单、教学资源不够丰富、管理模式不统一、系统升级不方便等不足,结合高校语音实验室教学和管理的特点以及云计算的优势,设计基于云计算的