【摘 要】
:
随着计算机技术和互联网的迅速发展,人们的日常生活发生了翻天覆地的变化,由此产生的各种便利的在线服务系统更是深刻地改变了人们的交流和联系方式。聊天系统作为满足人们实时通信需求的系统应运而生,极大程度的拉近了不同地区用户之间的距离,方便了信息的传播和获取。另一方面,随着国际化的日益发展,不同领域都开始出现了国际化交流的需求,但国际化交流中不可避免会存在语言隔阂的问题。本课题旨在通过语言检测和机器翻译技
论文部分内容阅读
随着计算机技术和互联网的迅速发展,人们的日常生活发生了翻天覆地的变化,由此产生的各种便利的在线服务系统更是深刻地改变了人们的交流和联系方式。聊天系统作为满足人们实时通信需求的系统应运而生,极大程度的拉近了不同地区用户之间的距离,方便了信息的传播和获取。另一方面,随着国际化的日益发展,不同领域都开始出现了国际化交流的需求,但国际化交流中不可避免会存在语言隔阂的问题。本课题旨在通过语言检测和机器翻译技术,为用户提供一个多语言聊天系统。用户只需设置一种常用语言,系统会将用户发送的消息翻译为目标用户的常用语言,翻译完成后发送给对方,用户无需关注对方的常用语言,即可满足多语言交流的需求。对于语言检测技术,本课题提出利用BPE方法解决检测模型词表过大问题,使用TextCNN模型提高检测精度,并设计实验对比,使用上述方法能够提高检测准确率。对于小语种与中文之间翻译缺乏平行语料,严重影响翻译模型效果的问题,本课题对平行语料收集方法提出了创新,大大丰富了小语种能够收集到的平行语料数量,保证了小语种模型的翻译质量。为了保证机器翻译的翻译质量,解决机器翻译模型对于平行语料质量的依赖性问题,本课题提出了融合先验知识的机器翻译模型,该模型利用先验知识编码器结构将预训练模型与机器翻译模型融合,引入先验知识,减少了模型对于平行语料的依赖问题,且该模型可以作为预训练模型与Seq2seq模型融合的通用模型结构,并设计实验对比了各模型的效果,融合先验知识的机器翻译模型相比于通用的Transformer模型在BLEU值有所提升。本课题首先对选题背景与意义进行论述,确定了本课题的主要研究内容。随后对课题的研究与实现过程中所涉及的相关技术和理论进行介绍,包括前端开发框架、服务器端开发框架、算法模型等。然后对本课题的关键技术和创新点进行详细说明,即语言检测模型的研究、针对小语种数据稀少问题提出的平行语料收集方法的创新和融合先验知识的机器翻译模型的研究。按照软件工程的要求,对系统进行需求分析,包括功能需求和非功能需求,并以需求分析为基础对系统进行总体设计,确定系统的整体架构和功能模块,完成数据库设计、前端页面的设计和通信接口设计。以总体设计为基础,按功能模块划分对本系统进行详细设计与实现,确立各模块的时序图或流程图。最后,对本系统进行功能测试和非功能测试,并对所有测试结果进行分析。本课题依据实际需求,基于机器翻译等自然语言处理技术和Web开发技术,设计并实现了一个简单易用,满足实际需求的多语言聊天系统。
其他文献
由于各种有机物在工业和生活中的广泛应用,越来越多的有机物成为持久性污染物残留在环境中,如全氟化合物(PFCs)、多环芳烃(PAHs)及染料等。这些污染物具有环境持久性、生物累积性及高毒性,对人类和生态环境造成了严重影响,因此它们的检测、去除是保障环境健康可持续发展的重要前提。这些污染物在环境中大多痕量存在,因此发展高灵敏、准确方法,包括样品前处理及仪器分析方法,至关重要。为了应对日益增多的污染物,
进入21世纪以来,我国在高速铁路建设上,实现了跳跃性的发展,尤其随着十三五交通规划战略提出以及高铁八小时交通圈概念应运而生。目前我国铁路建设规模前所未有,但与此同时也需要与时俱进的先进监测技术与之匹配。就目前的监测技术而言,不仅费时费力,监控数据亦容易出现较大误差。因此由于现有的技术或是性能上存在不足,或是应用范围狭窄,基本不能实现大范围区域内的自动监测,急需能够实现大范围、长距离实时监测的新技术
活塞是发动机工作条件最苛刻的零件之一,在高速往复运动中传递整个发动机原动力,承受非常高的机械负荷和热负荷。它是制约发动机进一步强化的瓶颈之一,在热负荷和机械载荷作用下,活塞整体会发生变形,从而影响活塞与缸套之间的配合精度,对发动机的运动精度、燃油性能和服役可靠性等都有重要的影响。活塞结构形状复杂,尺寸精度要求高,目前活塞的外径精度较难控制,导致活塞的废品率和制造成本都比较高。针对硅铝合金活塞的结构
WiFi等无线信号指纹定位的出现,使得室内定位在覆盖率、定位精度、实时性等方面都有了较为明显的提升,并在行人导航领域得到了较为普遍的应用,也因此产生了大量的定位数据。通过将定位数据和身份相关联,可以更为有效地挖掘定位数据中的隐含信息,如个人喜好、常活动区域、性格特点等,在大型建筑物内的个性导航、商业广告的精准投放、市场的精准分析、针对性救援、犯罪分子跟踪等方面都有着广泛的应用场景。按照定位信息来源
执行异议之诉是指在强制执行的过程中为保障案外人的权益而特别设定的一项制度,当案外人以不动产买受人的身份向法院诉请排除抵押权人针对案涉房产的强制执行时,就产生了一般买受人物权期待权与抵押权人权益的冲突。当物权期待权、抵押权、建设工程优先权等权利同时存在时,如何权衡各方利益,进而认定执行标的利害关系人是否享有排除法院强制执行的民事权益,是法院审理的重点,也是当前司法实践的难点。本文以徐雅茜与富邦公司等
随着地球能源的日益枯竭,新能源的开发和利用已经迫在眉睫,固体氧化物燃料电池以其绿色、无污染的特点,赢得了人们的广泛关注。随着固体氧化物燃料电池的发展,三层结构的燃料电池的弊端逐渐显示出来,如电池层与层之间的热膨胀系数需要完美的匹配,燃料电池工作温度过高对环境要求比较苛刻,电池的制作成本高,不能实现商业化应用等,这些问题严重的限制了燃料电池的发展。为解决固体氧化物燃料电池现存的一些问题,突破传统固体
单幅图像去模糊是图像处理与计算机视觉领域的重要研究内容,运动车辆模糊图像的复原在交通视频监控、交通违法信息查证、车辆信息识别等方面有较广泛的需求和应用。现有图像去模糊方法分为非盲去模糊和盲去模糊两大类,其中,盲去模糊需要同时求解模糊核和清晰图像,属于严重不适定问题。目前,图像盲去模糊的经典算法是正则化方法,它通过构造正则项来实现模糊核与清晰图像的迭代求解。但正则化模型中的参数取值不当易导致去模糊效
近些年随着国家政策的引导和政府的鼓励支持,我国PPP项目开展得如火如荼,项目涉及的领域也越来越广,“PPP”这个舶来品逐步在我国落地生根并取得了很大的成就。诚然,PPP模式作为一种政府为实现社会公共利益而设计的机制,在为大众提供公共产品和服务中发挥了巨大的作用。然而,随着PPP项目井喷式发展,PPP模式发展过程中出现的问题也不可小觑。政府和社会资本在签署及履行PPP项目合同中出现诸多争议,但因我国
经导管肝动脉化疗栓塞术(transcatheter arterial chemoembolization,TACE)结合了靶向化学疗法的作用和动脉栓塞诱导的缺血性坏死的作用,具有低创伤、低风险、副作用小和治疗成功率高的特点,成为中晚期原发性肝癌治疗的首选疗法。随着TACE的发展,药物洗脱微球(drug-eluting bead,DEB)成为研究热点。海藻酸钠(NaAlg)是一种天然阴离子多糖,其良
信用评级是判断债券的违约风险和评价债券价值的重要依据。对投资者来说,信用评级是一种直接的信号传递方式,使投资者能够准确地了解企业和债券的信用风险,以便做出更加合理