基于深度学习的词对齐技术研究

来源 :沈阳航空航天大学 | 被引量 : 0次 | 上传用户:doudouling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语词对齐技术的研究在自然语言处理领域有重要意义,双语词对齐技术在神经机器翻译的应用中也发挥着重要的作用,如注释转移和词汇注入,还可以辅助译文质量的校对。双语词对齐语料还可以为双语句对齐、跨语言信息检索等提供重要支撑。因此,研究和实现高质量的双语词对齐方法和工具,具有重要应用价值。本文重点研究基于神经网络的词对齐技术。该研究首先面临的一个重要问题就是如何获得较大规模的词对齐训练语料。依赖人工标注的词对齐数据集因规模有限无法满足训练要求;传统的词对齐模型一般是通过人为选取特征,受标注者的专业知识的影响,这样的特征往往是稀疏的。本文针对以上问题,首先通过传统机器学习的方法建立训练数据集,并在此基础上完成神经网络的构建,最终实现了无监督的以双语句对齐语料为基础的双语词对齐系统。具体研究内容包括:(1)基于统计机器学习方法生成双语词对齐语料。在无标注的英中句对齐专利标题语料基础上使用传统机器学习方法GIZA++完成英中词对齐工作,并使用外部网络词典验证基于GIZA++词对齐结果的准确性,验证结果表明,通过该方法生成的英中双语词对齐数据集为接下来神经网络模型的训练提供了很好的数据支撑。(2)提出面向神经网络的词对齐训练语料标注方案。即使用字母‘B’与数字的组合表示英文词与中文词在英中平行句对中的对齐关系。通过对数据集句子长度、词频等特征分析,选取满足词对齐句长范围最好的数据集完成神经网络训练数据集的标注。这种方式省去了人工标注词对齐语料的成本,并且这种构建数据集的方法也可以为其他基于语料库的研究提供参考。(3)提出融入双语句法信息的神经网络词对齐方法。该方法首先对英中平行的双语句子进行句法分析,并在神经网络的编码层融入句法结构信息。神经网络部分选择双向长短时记忆网络与文本卷积网络的结合,从而训练出融合线性句法结构的神经网络词对齐模型。实验表明,融合双语句法信息的神经网络词对齐算法准确率有明显提升。(4)在工程实现方面,设计并实现一个双语词对齐系统,该系统完成数据集构建、词对齐标注、句法分析、神经网络模型的构建以及词对齐结果的可视化。
其他文献
电动飞机研发已经成为当下通用飞机研究的热点。辽宁通航研究院研制的两座电动飞机已经试飞成功,四座电动飞机也处于试飞阶段。飞机驾驶舱显控界面部分是在借鉴了塞斯纳172型天鹰内饰的基础上设计完成的,相关的显示与控制设计还需进行更系统的人机工学分析。本文主要是在锐翔两座电动飞机显控界面布局的基础上,对四座电动飞机显控界面进行重新的布局优化设计。首先是通过对飞行器相关的人机工学文献的研究,总结显控界面布局原
学位
随着市场变革,劳动力多元化的特点日益凸显,企业正在寻求多种管理方式来降低企业用工成本,提升自身市场竞争力。凭借低成本、高产出、高水平的专业技能等优势,劳务派遣用工成为企业用工模式中一种常见的人力资源管理方式。然而,由于劳务派遣员工与正式员工身份归属存在差异,劳务派遣员工会面临快速适应环境、身份差距的恐慌和工作的不安全感等挑战,用人单位则面临优化管理,提高企业战略绩效的压力。而反馈寻求行为作为员工绩
学位
低压台区拓扑关系是支撑配电网智能化感知的基础功能,相比于人工勘查相序,依靠电量大数据做相序识别分析具有高效、准确的优势。针对相序识别问题,提出了基于电压相似性聚类的台区相序识别方法。首先,分析了用户电压曲线相似性特征,归纳出台区用户电表的电压在长时间尺度上具有趋同性,在短时间尺度上具有差异性的特点,为方便对电压时序数据的分析,对其采用Z-Score标准化处理;然后,采用欧式距离描述电压序列的相似性
期刊
养老问题是当今社会普遍关注的社会问题,深度老龄化、未富先老已成为我国人口结构的重要特征。随着经济社会的快速发展和城镇化进程的加快,农村地区老龄化日益突出,加之青壮年劳动力外流、政策惠及不到位、土地保障能力减弱等原因,农村养老的挑战更为严峻。面临居家养老是近年来积极应对老龄化不可避免的趋势和必然选择的情况,使得出现一个不容回避的重要问题——贫困地区农村居家养老问题。在贫困乡村居家养老服务领域中引入协
学位
针对低压配电网数据完整性不足的场景,提出了一种基于二次矩阵补全的低压配电网相序识别算法。首先,分析了基于电流拟合的相序识别原理与模型;其次,研究了基于奇异值门限(SVT)算法的矩阵补全算法及其对缺失数据的一次补全方法;然后,为了进一步提升矩阵补全精度,提出了基于SVT算法的二次补全算法,并在此基础上构建了基于二次矩阵补全的低压配电网相序识别方法;最后,通过实际台区用电数据对所提算法进行算例分析。算
期刊
背景和目的广西艾滋病疫情严重,经同性传播比例逐渐上升。近些年来,男男同性性行为人群(Man Who Have Sex With Man,MSM)的艾滋病感染率逐年升高。本研究以广西MSM艾滋病人群为研究对象,综合运用HIV分子流行病学和社会传播网络分析方法,了解广西MSM艾滋病人群HIV-1流行毒株特征、传播模式、分子传播网络特点和社会网络特征,揭示广西MSM人群艾滋病流行特点、超级传播个体或分子
学位
随着网络架构和通信范围的不断扩大,数据中心网络中的能源成本急剧增加。在软件定义车辆网络(Software-Defined Vehicular Network,SDVN)中,随着网络规模的增长以及车辆数量的增加,车辆之间以及车辆与控制器之间的通信延迟急剧上升。这需要布局更多的控制器来提供通信服务,然而更多的控制器导致高能耗。因此,应该解决控制器布局问题(Controller Placement Pr
学位
机器博弈是人工智能领域具有挑战性的研究方向,分为完备信息博弈和非完备信息博弈。非完备信息博弈由于隐藏信息的存在,所以研究难度较大。在实际应用中的很多问题都可以抽象为非完备信息博弈,因此研究非完备信息博弈具有重要意义。非完备信息博弈关键技术有纳什均衡的求解、对手建模等。本文以无需领域知识为前提、德州扑克为研究对象,研究了对手建模方法,为此做了以下工作:(1)提出预期收益策略并将其和上限置信区间算法(
学位
目前,面对计算任务中庞大的计算数据,并行计算能力显得尤为重要。而量子计算和云计算都是可以改变未来计算方式的技术。量子计算通过使用量子物理的相干、纠缠等性质,设计一些高速的计算模型以及对经典算法进行加速。由于大型量子计算机需要一定的运行条件,短期内部署高性能个人量子计算机似乎仍有困难。而云计算可以将计算能力作为一种服务对客户端提供。因此,客户端有必要借助量子云计算进行复杂的量子计算。两者进行结合实现
学位
随着计算机视觉领域的高速发展,使得监控场景中的目标检测与跟踪在日常生活中发挥着越来越重要的作用,但在目标检测与跟踪的实际应用中,经常受到算法运行速度和准确率的影响,同时还受到行人车辆互相遮挡、目标过小和尺寸变化等情况的干扰。因此,本文为了解决这些问题,对基于深度学习的YOLOv3算法和Deepsort算法进行改进,具体工作如下:在交通监控的场景下,为了提高对小目标检测效果,以及行人车辆发生尺度变化
学位