基于机器学习的英文文本摘要与机器翻译技术研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:hklsdjflkafg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,广泛可用的数据正呈爆炸式增长,人类进入大数据时代,大量的英文信息给用户带来信息冗余问题,对用户浏览信息、筛选信息造成一定的困难。同时,在英文翻译成中文问题上,准确性有待进一步提高。因此,对英文文本信息进行摘要,并准确地翻译成中文,帮助人们有效、快速地获取英文文章重点以及核心知识显得十分重要。针对以上问题,本文设计并开发了基于机器学习的英文文本摘要与翻译系统,能够帮助人们快准确、高效地获取英文文本的关键信息。针对翻译准确性不高的问题,本文所使用的模型优化策略及数据增强策略能够提高翻译的准确性。即,模型参数方面,调整模型训练时的batchsize等参数,以及预测时的alpha值和beamsearch值,能够提高0.7%左右的BLEU值;模型结构方面,通过复现Transformer多层表示融合,能够提高0.77%的BLEU值;数据增强方面,通过“回译”的方式,能够提高0.5%的BLEU值。同时,本文所构建的“神经机器翻译、统计机器翻译、词表”翻译系统,能够进一步提高翻译的有效性。其中,神经机器翻译使用tensor2tensor中的Transformer,统计机器翻译使用moses中的IBM model5。针对快速获取英文文本核心内容问题,本文结合无监督机器学习Textrank进行抽取式文本摘要,能够有效地将抽取出长文本的关键信息,并经过翻译系统,将英文更为准确地翻译成中文,帮助学习者提高学习效率。本文以机器翻译为背景,并结合了文本摘要技术,解决了人们低效获取英文文本重要信息的问题,也能够为后续的多领域技术结合提供参考。
其他文献
目的:观察艾灸后胃癌大鼠腓肠肌内总蛋白含量的影响,从NF-κb活化后对肌蛋白降解主要途径—泛素蛋白酶系统中限速酶MURF1、MAFbx m RNA表达的影响,探讨艾灸减少胃癌大鼠骨骼肌肌蛋白消耗的可能机制。方法:将雄性健康SPF级SD大鼠43只,其中23只采用手术胃部移植Walker-256瘤组织建立胃癌大鼠模型,7天后随机选取3只剖腹验证胃癌模型是否造模成功,剩余20只随机分为模型组10只和艾灸
随着计算机科学的快速发展与云时代的到来,矢量地理数据作为国家基础建设必不可少的数据来源,在地理信息、城市规划、测绘勘察等行业发挥着数据支撑的作用。地理数据共享平台的发展使矢量地理数据在传播与使用变得十分便捷的同时也面临着泄密等安全问题,尤其是当面对突发灾害、事故等应急需求需要网络传输时,数据的安全问题则成了网络传输的最大障碍。因此亟需引入面向网络传输的矢量地理数据加密技术作为矢量地理数据安全保护的
Al-Cu-Mg-Zr合金是一种在2024和2224铝合金基础上改良开发出的新型挤压合金,其减少了Fe、Si杂质元素的含量,加入了少量的Zr来抑制热加工过程中的再结晶,使其具有更高的强度和韧性、高的耐磨损性能、较好的抗疲劳性能和良好的加工性能。而在热加工成型过程中合金的初始微观组织以及变形条件对该合金产品最终的组织与性能有着显著的影响。本文通过热压缩实验并结合显微组织表征,研究了具有不同初始微观组
文载于物,族髓附间。运脉牵连,兴者襄见。文物承载国运,牵连民心。不可计数的中国文物展现的正是中华民族五千年上下求索之路,其整体性、原真性、独特性,在全世界绝无仅有。
奶业需要开展保持奶牛健康和高产的研究。繁殖效率低下和生产性能不高是世界奶业的主要问题之一。解决这一问题的方法之一就是可以在日粮中添加抗氧化剂来实现。β-胡萝卜素是一种重要的抗氧化剂,其作为维生素A的前体,与维生素A具有许多相似的生理功能,但β-胡萝卜素还具有维生素A不具备的特殊作用,主要体现在抗氧化方面。为了确定β-胡萝卜素对奶牛的饲喂效果,本试验研究了日粮中添加β-胡萝卜素对奶牛繁殖性能和生产性
三乙酸甘油酯(TAG)作为一种重要的精细化工中间体,在化妆品、卷烟、医药、食品等行业有着广泛的应用。TAG传统生产工艺是以浓硫酸为催化剂,通过甘油与乙酸发生酯化反应,再经过
随着“温室效应”的加剧及集约化养殖的发展,热应激造成的肉鸡氧化应激,已成为肉鸡养殖业面临的重要问题,制约了该行业的健康高速发展。转录因子E2相关因子2(Nrf2)是众多抗氧化酶的上游调控基因,本课题组前期研究表明,饲粮添加白藜芦醇(Resveratrol,Res)可显著提高热应激肉鸡肌肉抗氧化酶活力,改善肌肉品质,但相关分子机制是否与Nrf2信号通路有关仍需进一步研究。本研究的目的在于探究白藜芦醇
浮式钻井装置受海浪影响产生升沉运动,带动钻柱运动,引起钻压变化、降低钻井效率、甚至引发钻井事故,需要安装升沉补偿装置进行钻柱运动补偿。进行天车升沉补偿实验装置开发
本论文针对汉留断裂带断裂系统复杂、构造破碎、圈闭落实难度大等问题,依托大量的实际资料,从汉留断裂带主要目的层地层精细划分入手,通过扎实的地层对比划分,进一步明确已富
自动驾驶技术对于未来汽车和交通的发展有着重要意义。近年来,随着人工智能和传感器等核心技术的发展,自动驾驶技术已经成为研究热点。目前,自动驾驶技术尚不成熟,如何使汽车智能自主地做出决策控制是自动驾驶技术的研究重点。本文通过研究端到端自动驾驶方法实现车辆的自主决策控制。端到端自动驾驶方法使用端到端自动驾驶算法模型学习驾驶员的驾驶经验做出决策控制。相比于传统自动驾驶方法,该方法不涉及复杂的环境感知任务,