跨语言的句子摘要研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ghf01508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下信息过载是互联网中普遍存在的一个问题,通过自动文本摘要技术能有效改善这个问题。但是,目前自动文本摘要的研究方向是基于单语的抽象文本摘要,这种方式存在一定的局限性,阻碍了人们对陌生语种信息的检索能力。因此本文中的主要研究工作是基于跨语言的句子摘要,通过源端文本生成与之不同语种的摘要文本。该技术的实现主要是通过如下三个方法:1.基于“老师-学生”框架的跨语言句子摘要。跨语言的句子摘要任务目前属于零样本学习任务,本文利用单语句子摘要的平行数据通过机器翻译模型构建伪语料。使用该伪数据训练最基本的端到端的跨语言的句子摘要模型,定义为“学生”模型。使用单语句子摘要的平行数据训练单语句子摘要模型,定义为“老师”模型。通过“老师”模型输出的词表概率分布对“学生”模型输出的词表概率分布提供有效的监督信息,使得“学生”模型有效克服伪语料带来的缺陷。2.基于注意力传递的跨语言句子摘要。在编码器-解码器结构中,注意力对齐准确度严重影响模型的表现。伪语料是通过使用机器翻译模型翻译单语的摘要平行数据所形成的,因此将单语的句子摘要模型中的注意力对齐信息传递到翻译模型中,从而形成了跨语言的注意力对齐信息,为跨语言的句子摘要模型提供了有效的注意力对齐监督信息。3.基于对比注意力机制的跨语言句子摘要。在基准系统编码器-解码器结构中,注意力机制发挥着重要的作用。在此基础上,本文中增加了对比的注意力机制,通过反向注意力来获取目标端与源端中最不相关的信息,基准系统中原有的注意力机制获取目标端与源端中最相关的信息。两种机制相结合区分出源端文本中相关与不相关的信息,联合生成最终的摘要文本。
其他文献
在流计算系统中,数据倾斜通常会导致负载不均衡进而增加算子处理数据的延时,严重影响系统本身的运行效率。处理数据倾斜的方法是提出更好的分组策略,保证后续到达的数据可以
在人工对高层建筑的外墙施工中,悬挂式平台是保障作业安全有效实施的主要载具。在高层建筑施工中应用机器人技术有望提高工作效率和施工精度,改善安全性,但悬挂平台仍是目前
图像去噪是减少数字图像中噪声的过程,是影响图像分割,边缘检测,特征提取等对图像进行后续处理的重要前提。深度卷积神经网络在图像识别、语音处理等方面取得了重大成功,通过
微分方程在物理学、力学、生物学、工程学、经济学等众多领域有着广泛的应用.而微分方程的振动理论作为微分方程稳定性理论中的重要分支,近几十年来也得到了重要的发展,许多学者对微分方程振动理论进行了研究和探索,推广改进了一些结论,不仅具有重要的理论意义,而且也具有较高的实用价值.在本篇硕士论文中,我们运用Philos型积分平均,广义的Riccati变换和代数不等式理论等方法,研究了一类高阶时滞泛函微分方程
随着智能移动设备和移动互联网的高速发展,移动用户及移动应用程序数量正以前所未有的速度增长。为了满足人们的需求,这些新兴的应用往往能耗高、计算密集,而现有的移动设备
随着分布式计算、人工智能、云计算等技术的迅速发展,各类网络服务的应用使数据规模与信息体量呈现指数级增长,推荐系统及其相关技术逐渐成为处理“信息过载”的重要工具。推
背景:近年来随着国家经济的大力发展,所带来生活方式上的转变越来越大,人们不再一味地追求物质上的满足,转而更看重精神和身体上的健康。此时,基因检测技术,这个能够从人类最
偏好挖掘是数据挖掘中的重要研究内容,条件偏好网络(Conditional Preference Networks,CP-nets)作为条件偏好关系的重要表达模型,可用于描述用户的条件偏好关系。目前,其主要
热激蛋白(Heat shock protein,HSP)是一类广泛存在于生物体内的高度保守的应激蛋白,在生物的生长发育和逆境适应中扮演着十分重要的角色。目前,HSPs在动物中的研究居多,有关植
目的:通过选择性环氧化酶-2(C0X-2)抑制剂塞来昔布(西乐葆)联合表皮生长因子受体-酪氨酸激酶抑制剂(EGFR-TKI)厄洛替尼(特罗凯),研究对肺癌裸鼠移植瘤生长增殖的影响,并从分子水平探讨其机制。方法:C0X-2抑制剂联合EGFR-TKI作用于突变型肺腺癌HCC827细胞裸鼠移植瘤,观察各处理组荷瘤裸鼠的生长情况,并用免疫组化法测定增值、血管相关因子,探讨联合用药方式对肺癌生长增值、血管的