【摘 要】
:
文本压缩又称句子压缩,是一种将冗长句子转换成精炼简短句子的方法。该项技术广泛地用于主题自动获取、摘要生成、问答系统等技术中。相比于生成式句子压缩,使用删除的方式更能够保证压缩后的句子中的更稳定可控,却主要面临以下几种挑战:(1)词向量的词典大小有限,而深度学习端到端的训练方式容易导致句子中的核心词误删。(2)模型大多隐式从单词序列中捕捉语法相关信息,导致模型对语法相关信息的捕捉有限,影响了输出结果
论文部分内容阅读
文本压缩又称句子压缩,是一种将冗长句子转换成精炼简短句子的方法。该项技术广泛地用于主题自动获取、摘要生成、问答系统等技术中。相比于生成式句子压缩,使用删除的方式更能够保证压缩后的句子中的更稳定可控,却主要面临以下几种挑战:(1)词向量的词典大小有限,而深度学习端到端的训练方式容易导致句子中的核心词误删。(2)模型大多隐式从单词序列中捕捉语法相关信息,导致模型对语法相关信息的捕捉有限,影响了输出结果和模型的鲁棒性。(3)单一领域的训练数据集训练出来的模型鲁棒性不强,在不同写作风格数据集中的适用性不强。针对现有句子压缩问题面临的以上挑战,本文提出了通过显式加入语法信息的句子压缩方法,包括了一个基于带有语法门控的长短期记忆网络(LSTM)组成的Syntax-Res模型,以及一个基于自注意力模型加入句法依存结构的TransformerDependency模型。论文主要工作包括:(1)基于长短期记忆网络,提出了基于序列模型的加入词性信息的句子压缩模型Syntax-Res。LSTM-Res是一种带有短路机制的三层LSTM模型,使用LSTMRes对单词序列进行编码。通过捕捉序列中的词性信息,并使用双向LSTM进行编解码。在单词序列的解码阶段提出一种加入语法门控的LSTM结构Syntax-LSTM,使用词性序列的输出对门控进行控制,进而对单词序列的输出结果进行引导。通过加入词性序列特征一定程度上缓解了因词典规模有限的问题,使得最终的输出语句的语义保留更完整且模型的鲁棒性更强。(2)基于自注意力机制,提出一种加入句法依存结构的句子压缩模型。自注意力模型基于Transformer结构,拥有强大的特征捕捉能力和可并行性,但对句子中的语法结构相关特征捕捉较差。本文基于依存结构树中的深度信息进行编码将结构信息加入模型,加强了模型对结构特征的捕捉能力,增强了模型的效果和鲁棒性。(3)通过实验对上述模型与相关对比算法进行了比较。包括比较了在相同来源测试集上的泛化能力,以及在不同来源测试集上的模型跨领域应用能力比较。对实验结果做了详细的分析,验证了通过加入语法信息能够提高模型在文本压缩任务下的应用效果,最后对实际压缩案例做了进一步的分析。
其他文献
在中国国力日益强盛,经济快速发展和“一带一路”政策等多重影响推动下,中国的国际影响力逐渐增强。作为当今世界第二大经济体的中国与国际间的合作交流越来越多,进一步推动了国际“汉语热”。对外汉语教育应抓住这一时代机遇,加强研究对外汉语在海外的教学和推广。语言教学应重视文化教学。对外汉语教学中,因为涉及到文化差异和文化交际等问题,所以文化教学显得格外重要并具有特殊性。对外汉语不仅是语言教学也是文化教学。对
全球卫星导航系统逐步成为空间信息获取不可或缺的部分,应用范围由专业市场扩展到民用市场。导航接收机前端作为在卫星导航系统的一个主要组成部分,其重要性不言而喻。而低噪
我国经济正处于迈入高质量发展的关键转型期,经济结构与产业升级虽已取得显著成效,但支柱产业集中度低、技术创新水平有待提升等问题仍比较突出。在如今贸易摩擦的国际大背景下,激活国内需求,并将其转换为经济增长的内生驱动力是必然选择。为解决发展中深层次的问题,不仅需要改革开放继续释放红利,也需要推动企业并购发展,充分发挥微观市场的资源配置作用,激活市场活力,推动产业结构升级,为高质量发展增质提效。并购不仅对
在我国进入经济新常态的背景下,改革发展已成为新时代的主题,技术创新作为推动改革的先锋力量,无疑成为企业获得更好,更有效发展的根本途径。改革开放几十年以来,我国制造业发展迅速,对我国经济发展与社会稳定做出巨大贡献,一直在国民经济中占有重要地位。由于其多处于成长期,市场竞争激烈,技术创新更为重要。经济转型的新阶段,大力推动创新型企业的发展,更有效的促进社会经济的持续增长。在宏观和微观层面技术创新都有长
2015年11月1日,正式生效的《刑法修正案(九)》对我国异种自由刑的数罪并罚方式以立法形式予以明确,在法律明确之前,我们虽有司法解释予以指引,但因部分司法解释不具有强制性,司法实务中仍出现同种类型异种自由刑并罚的情况下,判决时却采用不同并罚方法的案例出现。目前现有法律规定在管制和有期徒刑或者拘役数罪并罚时,在先执行较重的有期徒刑或者拘役之后,再执行管制。而在有期徒刑和拘役刑数罪并罚时,只执行较重
人体动作识别技术现阶段已经取得了一些成果,例如基于专业化设备的人体动作识别、基于雷达信号的人体动作识别、基于无线信号的人体动作识别。但是随着各方面技术日益完善,在
城市水体是城市生态系统重要的一个组成部分。如今,伴随城市经济的发展,污水排放量不断增加,城市黑臭水体大面积出现。本研究通过室内模拟试验,以实际黑臭水为研究对象,使用自制的微生物促生剂技术对黑臭水体进行修复。并提出微纳米曝气联合微生物促生剂修复城市黑臭水体的组合技术。主要研究结论如下:(1)使用不同剂量的微生物促生剂对黑臭水体进行了为期27天的修复试验,分析结果显示:此微生物促生剂最佳投加量为0.1
飞片冲击起爆是直列式传爆序列的重要研究方向。本文采用Lee-Tarver点火增长模型,以起爆阈值和输出性能为指标,从飞片参数和装药参数两方面对飞片冲击起爆炸药的影响规律进行
党的十九大报告指出,要以“一带一路”建设为重点,遵循共商共建共享原则,形成路海内外联动,东西双向互济的开放格局,充分利用国际市场和资源,进一步提升对外直接投资。基础设施在推动中国对“一带一路”国家直接投资方面,起着先导性作用。但由于“一带一路”沿线国家发展极度不均衡,基础设施状况差异悬殊,这为推动中国对“一带一路”沿线国家直接投资带来了挑战。本文以“一带一路”沿线46个国家为研究对象,利用2008
随着客户对产品的需求越来越多样化、个性化,制造企业逐步向大规模个性化定制生产模式转变,本文研究的目标是基于客户需求,为客户提供满意度和产品可持续性最优的个性化产品配置方案。准确识别产品配置方案与客户需求之间的关系,是有效满足客户的个性需求,提升客户满意度的关键。而产品配置方案和客户需求之间的关系很难建立精准的数学模型来进行定量分析,当下高速发展的数据挖掘技术为解决该问题提供了参考;且在当前社会整体