基于深度学习的邮箱技术研究与系统设计

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:pkuericz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会,电子邮件是人与人沟通的重要途径。如何快速获知邮箱中海量的待处理邮件的信息内容,精准锁定重要邮件,成为了制约信息获取速度,提升信息交流效率的核心问题。针对这一问题,本文提出开发一种全新的邮件助手系统,实现邮件内容以摘要形式显示在系统收件箱邮件列表中,帮助使用者极大提高处理邮件的速度和精准度;邮件按照重要程度,分布在邮件列表的不同区域。论文的主要研究内容有:(1)邮件数据预处理:基于公开的Enron Email Dataset数据集,采用Deep L软件进行翻译和语病修正,获得中文邮件数据集;人工标定邮件重要程度,邮件摘要;使用jieba分词软件将邮件中的句子分割成词语,且过滤停用词;用Word2Vec模型生成词向量,为深度学习准备数据集。(2)邮件文本摘要:利用RNTN(Recursive Neural Tensor Network)模型提取句子特征生成句向量,作为TextRank模型计算相似度分数的依据,优于采用原先词频计算相似度方式;利用句子位置不同,对处于句首的句子分配更多的权重,同时采用TF-IDF(term frequency–inverse document frequency)算法,利用词频和逆向文件频率信息建立关键词词表,调整句子分数,增加了相似度以外的维度考量,进一步提高摘要句子提取准确性。测试结果表明,改进的TextRank模型在Rouge-1、Rougle-2和Rouge-L值达到了0.3842、0.1526和0.3631,高于其他5种模型;选取最终得分最高的句子为首摘要句子,在同摘要句子相似度低于阈值的数据集中,选取得分最高的句子,为次摘要句子,更全面精确的表达邮件内容。(3)邮件分类:用RNTN生成的句向量作为输入,采用BiGRU(Bi-directional Gate Recurrent Unit)模型提取文本特征;引入Attention机制,提高特征抓取能力;修改Attention机制中Query值随机设置方式,采用文本摘要的句向量来初始化Query值,提高整个神经网络文本特征提取的能力。测试结果表明,该ATT-RNTN-BiGRU模型分类精确率达到了83.7%,优于Bi LSTM(Bi-directional Long Short-Term Memory)、BiGRU等神经网络模型。同时采用Text CNN(Text Convolutional Neural Network)模型,对短邮件进行文本特征提取和分类,弥补BiGRU网络模型的不足。(4)邮箱助手系统:采用vue框架和springboot框架搭建了邮箱助手系统;系统在收件箱邮件列表中提供邮件摘要信息和重要度分类。使用情况表明,摘要准确率达到82.5%,分类准确率达到85.6%,客户邮件处理效率提升40%以上。
其他文献
随着信息技术的飞速发展,利用电子的电荷特性为基础的传统半导体技术面临发展瓶颈。自旋电子器件因同时利用电子的自旋和电荷两种属性,可以大幅提高器件的处理速度并且极大减小器件的功耗,在下一代信息技术的应用上极具潜力。二维范德华磁性材料因其出色的自旋输运、大自旋轨道耦合,在自旋电子器件中表现出巨大的潜力。与传统三维材料相比,二维材料具有更大的比表面积,因此对光与电等外界刺激更敏感,可通过电学、力学、光学等
学位
近年来随着电商平台的兴起,传统单一样式的针织手套无法满足消费者个性化的需求,手套生产厂商正面临着设备的更新换代。现市场上国内手套机与国外先进设备相比还存在较大的差距,无法为企业带来复杂花型、高档次的手套产品,同时设备的编织效率低下,难以快速地满足市场需求。手套机设备的控制系统性能决定了其编织效果和编织效率,因此研发一套高性能的手套机控制系统对国内纺织行业技术提升有着重要意义,市场前景巨大。本论文首
学位
在现代无线通信中,为了使用有限的频谱资源传输更大的信息量,采用复杂的信号调制方式几乎是唯一和最终的解决方案。功率放大器(功放)作为射频收发系统中最耗电的部件,当面对复杂调制方式产生的高峰值平均功率比信号时,在功率回退阶段的低效率会造成大量的能量耗散,影响设备的可靠性和工作寿命。Doherty和Outphasing两种负载调制类功放,通过子功放间的有源负载调制,可以有效提高功率回退时的效率。以这两种
学位
锂离子电池有限的能量密度越来越难以满足便携电子设备、电动汽车以及新能源发电站等领域对储能电源在续航能力方面的需求。锂硫电池因为其较高的理论比容量(1675 m Ah g-1)、正极硫储量丰富以及环境友好等特点,成为发展高能二次电池的理想选择之一。但正极侧存在导电性差、体积膨胀严重、以及多硫化锂溶解造成的穿梭效应等问题,制约着其大规模商业化的发展进程。本论文利用溶剂热、溶液浸泡、高温煅烧等技术分别合
学位
人类社会生活与雷达息息相关,不断推动着雷达技术的发展浪潮向前推进。在雷达家族中超宽带雷达(Ultra Wide Band,UWB)由于具备抗干扰性强、检测精度高和功耗小的特点广泛应用于智慧医疗、自然灾害检测和军事战争等领域。实际检测中雷达信号与被测目标无需紧密接触和其他中间媒介,在有效范围内可简易高效完成相应工作。然而目前UWB雷达信号在进行人体呼吸心跳体征信息检测时,由于呼吸和心跳引起的体表起伏
学位
随着我国科学技术的不断革新和社会经济的逐步改善,人们生活工作条件得到显著改善的同时,也对保障公共安全提出了新的要求。目标检测作为常用的辅助技术之一,被细分为多种不同的研究领域,而行人检测作为其中的热点研究方向之一,多年来一直受到研究人员的特别关注,在理论研究和实践运用方面都付出诸多精力,并将该技术运用到智能化程度较高的实时监控、无人驾驶和机器人等不同的领域中。针对传统行人检测算法检测小目标行人准确
学位
运用文献资料调研等方法,探讨体教融合背景下中小学校园体育文化建设的价值和困境,发现中小学校园体育文化建设有利于提高课程质量、丰富课余活动;进一步打造校园文化氛围、提高学生素养;完善场地设施、助推校园建设。然而,目前中小学校园体育文化建设存在政策目标性不足、制度化不够完善;开展途径单一、内容和形式亟待丰富;专业师资支撑性不够、理论知识需进一步构建;基础建设缺乏、文化“硬”实力尚待完善等困境。提出要基
期刊
如今半导体行业发展迅猛,电子器件朝着集成化、微型化不断发展。然而,随着器件结构尺寸的降低,材料本身会表现出完全不同于宏观尺寸的性质。因此,探索纳米尺度下物质的相互作用、制备纳米级别的电子器件成为了当前研究领域的热点之一。对于磁性薄膜而言,有序可控的磁畴排列对自旋电子器件、磁光器件和微机电系统的性能有着重要的影响,而磁畴是磁性材料中的单元,其中原子的各个磁矩相互对齐以形成均匀的定向磁化。铁磁材料中内
学位
声表面波(SAW)器件作为一种基础的固体器件,因为其无线无源、品质因数高、功耗小等优点,在恶劣的工业环境中受到了广泛的应用。特别是在国防、航空航天、能源等特殊领域中,SAW器件需要在极高的温度下工作,这也就对其在高温下的稳定性提出了巨大的要求。本文采用磁控溅射和原子层沉积(ALD)的方法在硅酸镓镧(LGS)压电衬底上制备了基于Pt的多层电极。分析了不同沉积工艺制备的Al2O3保护层对高温SAW器件
学位
在图像传输中,由于网络带宽的限制,需要先缩小图像的分辨率,再对得到的低分辨率图像进行编码传输。在低分辨率的显示设备上,需要缩小图像的大小,使其在设备上有更好的显示效果。图像紧分作为一种缩小图像分辨率的算法,被广泛地应用于短视频与视频会议等场景。然而多数传统紧分算法仅考虑整数尺度因子,并使用卷积实现下采样,造成了特征图的信息损失,降低了模型生成低分辨率图像的质量。因此本文围绕图像紧分算法展开研究,主
学位