基于深度学习的阅读辅助系统

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liuxuedong0628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技的飞速发展让我们随时随地的了解世界各地所发生的的实时信息,网络的普及也让我们更加方便的浏览和查阅自己所需要的资料,技术的进步在带给我们便利的同时,也带来很多烦恼。科技进步带来了海量的信息,存在于我们工作生活的各个角落,如何快速的整理这些信息成为了我们日常生活中不得不面对的问题。在当今这个时代我们几乎时时刻刻都在与计算机打交道,在面对这个问题的时候很容易就可以想到利用计算机来帮助我们快速的区分这些海量的数据。早在上世纪五六十年代计算机的兴起就有很多前辈来研究这个问题,但是局限于当时计算机性能,可以使用的方法大多是基于统计学的方法,将文字信息进行分词处理后,统计出现的高频词作为标签来方便人们快速了解长文章的内容,但是这种方法的缺单也很明显,高频词意并不意味着文章包含的实际含义,只能获得表面意义而无法获取真正抽象的深层含义。上世纪五十年代开始,神经元概念的提出与神经网络的搭建,使得关于文字内容深层含义的提取找到了突破的方法,但是限制于当年计算机计算能力,很多深层次的网络结构无法实现,直到进入二十一世纪,计算机的计算力呈指数级的提升,关于神经网络的研究又掀起了一股热潮。为了解决这个令人烦恼的问题,本文设计的系统采用的是深度学习的技术来生成一个关于文本信息的标题摘要,通过阅读简短的标题来加快筛选查找所需要信息的速度,同时会生成分类的标签帮助用户整理这些资料。本系统的思路就是生成简短的摘要以及将文本信息进行分类两个操作这,辅助人们来进行快速阅读,快速了解文本的信息,其主要任务可以看做是一个标题摘要生成的问题,实质就是将输入序列转换成目标序列的过程,当前解决该问题最好的框架就是Encoder-Decoder框架就是针对序列到序列的问题所设计的框架。该框架主要是由两部分组成,一个是编码器,该部分主要提取文本信息中的抽象特征来供计算机进行识别文字序列信息,另一部分是解码器,根据编码器提取的特征信息来预测目标序列。由于系统任务的文本序列较长,同时使用的编码器结构的输入方式无法衡量输入词的位置信息,因此使用Word Embedding+Position Embedding的方式来生成高质量的输入。编码器的结构使用的是一个12个Head,512个隐藏单元,8个Block的结构,解码器则是用mask后的相同尺寸的结构。在实验部分设计了四个不同的实验来得到更好的模型结构来完成系统对应的任务,第一个实验是选择合适的输入序列长度使得摘要的效果更好,通过实验可以看出在模型拟合能力足够的前提下,输入序列长度越长越好。第二个实验是为了寻找对于相应长度的输入,多大的模型尺寸可以完成对应摘要的任务。后面两个实验是用来比较如何更快捷更方便的生成分类标签,为此设计了两个不同的模型,一个是基于LSTM的分类模型,另一个是基于Multi-Head Attention的分类模型,与之对应的设计了两个不同的数据集。两个模型都可以达到系统的任务要求,但是在面对更多分类标签或者更难区分的内容时基于Multi-Head Attention的分类模型更好,但是处于计算资源的局限性和实际实现的经济性等角度考量,最终选择了基于LSTM的分类模型来实现。
其他文献
随着近年来信息技术产业的飞速发展,家庭宽带网络和个人高速移动网络的快速普及,以及“终身学习”理念被人们广泛接受,在线教育应运而生并不断推广。2020年新型冠状病毒疫情爆发,响应疫情期间“停课不停学”的号召,在线教育瞬间成为全国各大高校和中小学以及各大教育机构的唯一选择。人们对于在线学习已经并不陌生,甚至对于在线学习有了更高的要求,希望在线教师能够像传统课堂上的教师一样,关注到自己的学习状态,并能够
改革开放以来,随着中国社会经济的快速发展,农民工已经日益成为推动经济发展的重要力量。与此同时,农民工与企业出现日益突出的劳资矛盾。工会可以有效地处理劳资关系,是保护
近年来,随着国内各项经济发展战略的推进,中国地方政府投资规模逐渐扩大,在财税收入有限的情况下地方政府纷纷选择扩大债务融资规模,这导致地方政府债务规模不断膨胀,部分地
高校思想政治理论课是立德树人的关键课程,其重要职责是运用系统的马克思主义理论对学生进行教育引导,帮助学生树立正确的三观和崇高的理想信念。大理高校思想政治理论课对大理高等教育事业发展及人才培养具有十分重要的意义。在新时代的背景下,研究大理高校大学生思想政治理论课教学实效性不仅仅促进当前高校思想政治理论课教学实效性研究的发展,更为大理高校提升其大学生思想政治理论课教学实效性,更好地发挥其在人才培养、服
由于人们忙碌和快节奏的生活,智能、及时地检测和监视异常活动已成为非常重要的研究。研究人员正在努力确保随时随地及时发现各种疾病。5G网络的独特之处之一就是非接触式医疗保健监控。卫生保健问题和患者的数量之比正在呈指数级迅速增长。大量的应用场合需要无处不在的智能边缘计算(UIEC)。这一领域涉及到研究人员正寻找人工智能和边缘计算资源来解决医疗问题,并为生命体征的早期诊断提供解决方案。在对病人进行手术后监
伴随着Web2.0时代的来临,以互联网为基础的新型媒介赋予了受众更多的权利。其中,社交媒体成为网民信息传播的重要工具,网民可在此载体上充分地创造和分享信息产品。企业也抓住契机在社交媒体平台传播品牌内容,塑造品牌形象。但在社交媒体环境下,传播技术、传播手段、用户行为的发展日新月异,如何建立有效的品牌传播机制、如何高效地利用各类传播平台、如何及时应对平台所带来的挑战,成为关乎企业未来发展的重要问题。海
文本情感分析作为网络舆情分析的关键任务之一,引起了广大学者的关注和研究。由于中文文本数据还具有其他特性,如语法特异性,语义歧义性,隐喻表达等,再者当前大多数中文情感分析方法都是基于情感词典和机器学习的,并且存在依赖于手动提取样本特征,文本表示能力受到限制等缺陷,很难获得更高的文本情感分析精度。为此,如何进一步提高中文情感分析方法的准确性是网络舆论分析最关键的任务。本次研究过程中,将采用深度学习法尝
随着工业化程度的提高、城市化进程的不断加快以及人口的不断增加,人类活动越来越频繁地影响着水环境。目前我国有66%以上的湖泊和水库处于不同程度的富营养化污染,不仅破坏
在现代导航系统中,天文导航和惯性导航的组合导航方式由于其极强的自主性和较高的精度受到越来越多的关注,但是由于其测试成本过于昂贵,导致SINS/CNS组合导航算法的发展过于缓慢,为了解决SINS/CNS组合导航在进行测试时成本过高的问题,本文设计一套实验室可用的SINS/CNS组合导航仿真系统,可以在实验室内较好的模拟SINS/CNS组合导航真实应用环境。本论文依托国家自然科学基金(61573113
R公司是某国有大型企业,近两年该企业紧跟国家“互联网+”战略步伐,积极拥抱互联网,实施数字化转型。C项目就是在这个背景下提出的对接多个互联网渠道的自动化业务处理系统项目,该系统采用了大数据技术实现对海量互联网数据的大并发处理,业务上整合了R公司内部和外部关键业务数据提升了业务处理时效及风控水平。C项目作为本文的研究案例,一共分两期,一期实施过程中采用传统开发模式;二期因为业务量的增加和需求的多样化