【摘 要】
:
自然语言处理(NLP)是人工智能中主要研究的方向之一,关于自然语言处理的研究受到了大量研究者的重视。近年来,NLP在机器翻译,信息检索,文本分类,文本生成上取得巨大突破。其中,文本风格转换技术由于其能控制生成文本的某些风格属性,从2017年开始被众多学者讨论与研究,成为文本生成及NLP中的一个研究热点。然而目前平行风格文本数据相当有限;而在非平行文本语料中,由于其无法提供相同内容且描述风格不一致的
论文部分内容阅读
自然语言处理(NLP)是人工智能中主要研究的方向之一,关于自然语言处理的研究受到了大量研究者的重视。近年来,NLP在机器翻译,信息检索,文本分类,文本生成上取得巨大突破。其中,文本风格转换技术由于其能控制生成文本的某些风格属性,从2017年开始被众多学者讨论与研究,成为文本生成及NLP中的一个研究热点。然而目前平行风格文本数据相当有限;而在非平行文本语料中,由于其无法提供相同内容且描述风格不一致的句子对,因此我们不能构造关于风格的映射训练来完成文本风格转换。在目前现有的工作中,大部分集中于风格转换的准确率,而忽略了文本内容的保留,然而较长句子的内容信息在转换过程中容易丢失。1.针对句子原本内容信息容易丢失的问题,我们先训练了一个以句子词袋特征为内容信息表示的内容识别器,通过它提取原本句子和转换后句子中的内容信息表示向量;并以WGAN-gp建立对抗生成网络强迫两者内容信息表示向量中承载的内容信息一致。在实验中,相关的自动评价和人工评价结果都表明包含以WGAN-gp为核心的内容保护模型的TWPst框架(我们设计的框架一)相比与目前主流的文本风格转换框架更具高效性。2.另外针对非平行且数据量过少的语料中特征学习效率低下的问题,我们在第二个框架(DAAst)中引入领域自适应学习来探究源域(其它域)中的数据是否有利于我们对目标域的特征学习。之后我们在对句子进行编码的基础上增加对抗网络来排除句子潜在(语义)向量中不需要的原本风格信息,从而提升后续文本生成的质量。在对目标句子的风格信息生成过程中,DAAst利用自注意力网络中的注意力机制来给出可能生成的词对于目标风格的相关性权重,从而使得有关生成器集中于生成对目标风格具有更高相关性的词。通过相关实验分析,框架二对内容信息的保护能力明显优于之前的框架,且在缩减目标域的训练数据情况下,框架DAAst仍能有效地在转换后的句子中保留原始句子的内容信息(框架二的相关代码公布https://github.com/mingxuan007/text-styletransfer-with-adversarial-network-and-domain-adaptation)。
其他文献
当下束缚装配式建筑发展的主要因素是由于其本身设计、生产、运输和安装技术的复杂性和前后工序耦合度高,对从业技术人员、管理人员和参建方的协同配合要求极其严格,从而产生高昂成本。故将装配式建筑项目成本-进度集成到BIM的管理研究,可实现对装配式建筑从设计到施工的可视化、标准化、协同化、模拟化和精细化成本与进度管理,并有比现浇建筑更低的成本和更短的工期,同时保证高品质的建筑质量。论文研究利用基于BIM信息
D公司是Y省的一家民营电力施工企业,凭借着新一轮电力体制改革的契机,在近5年内通过承接大量新建10kV配电站工程,连续3年实现了企业年产值翻番,使得企业规模迅速发展壮大。然而,在D公司快速发展的过程中,新建10kV配电站工程在进度管理上却出现了诸多问题,这使公司的进一步发展受到了极大阻碍,因而迫切需要对此现状进行改善。本文首先通过对D公司在新建10kV配电站工程中的进度管理现状分析,发现当前D公司
在被动式人体行为识别的方法中,由于无线设备的日益增多,以及Wi-Fi信号中包含的信道状态信息(Channel State Information,CSI)数据具有丰富的信道特性,基于CSI的无设备行为识别是研究者主要关注的领域。CSI为我们提供了传统识别方法所不具备的好处,它不仅价格低廉容易部署,同时,也对行为信息敏感,能应用于视野较差的环境,而且Wi-Fi信号还可以通过墙壁传播,这样有助于在穿墙
犬的行为是神经元与神经元回路对外界刺激的综合性反应,分固有行为和获得性行为。犬的所有的行为都是遗传因素和环境因素共同作用的结果。行为方面的研究在犬的繁殖和培育计划中很重要,服从性行为作为警犬选育的一个重要的生物学性状,从分子水平上研究该行为具有重要意义。目前,对特定犬的特定精神类疾病或行为的研究发现它们受一些基因的影响,而影响服从性行为的基因及位点所知不多,所以我们通过本研究来鉴定和验证以服从性为
系统性红斑狼疮(SLE)是一种结缔组织的慢性,复发性,炎症性,伴随高热的多系统性疾病,患者产生针对自身细胞核和细胞质抗原的抗体,攻击全身健康细胞和组织,其临床表现主要有皮肤、关节、肾脏和浆膜损害,小剂量的环磷酰胺是SLE治疗中广泛使用的药物,但是其作用机制还有待于进一步的阐释。本研究中我们首先发现与正常健康人相比,SLE初发病人外周血T淋巴细胞(CD3+)中果蝇Zeste基因增强子的人类同源基因2
<正>入选理由颁行26年的《职业教育法》首次完成大修。此次《职业教育法》修订深入贯彻习近平总书记重要指示批示精神和党中央、国务院关于职业教育改革发展的决策部署,全面总结职业教育改革发展的政策举措和实践成果,坚持目标导向、问题导向、效果导向,系统构建了新时代职业教育法律制度体系。
玛咖(Lepidium meyenii)原产于南美洲秘鲁,于2002年引入中国种植,随后玛咖产业在云南丽江实现了飞速增长。近年来,首次从玛咖中分离得到一系列特殊的乙内酰脲和硫代乙内酰脲类化合物,其结构中的硫脲片段和脲片段是一类重要的药效片段。硬核(Scleropyrum wallichianum)是分布在云南西双版纳的一种本土油料作物,有悠久的食用历史,在对硬核果仁油脂的分析中,发现其不饱和度高,
中国式法治现代化坚持走中国特色社会主义道路,通过自上而下与自下而上双向互动的逻辑力量推动中国法治建设,是现代化的普遍规律与中国具体国情相结合的新道路,是现代法治发展的新模式,是人类法治文明新形态。认识中国式法治现代化,必须立足于中国,放眼于世界,从中国发展的实际情况出发,深刻阐述其对世界法治文明的原创性贡献。中国式法治现代化的核心内容包括:坚持中国共产党的领导,坚持走中国特色社会主义道路,坚持推进
背景:肺癌尤其是非小细胞肺癌(NSCLC)在全球的患者数以及死亡数都十分靠前。目前缺乏有效的治疗方法,针对其发病的原因以及治疗方法是科研人员研究的重点和难点。在其中,围绕早期诊断标志物以及分子分型精准治疗的相关靶点基因及其机制的研究一直都是很热门的领域。通过前期收集的非小细胞肺癌患者癌与癌旁样本进行RNA-seq测序发现,PODXL2在NSCLC中呈现高表达趋势。PODXL2属于CD34家族,其蛋
本论文由两章构成:第一章为红紫珠(Callicarpa rubella)枝叶部分化学成分及抗炎活性的研究;第二章主要综述了2010年至2020年间,天然海松烷类二萜的研究进展。第一章论述了马鞭草科紫珠属植物红紫珠(C.rubella)枝叶部分化学成分分离鉴定研究。利用天然产物现代分离分析技术,包括硅胶柱色谱、高效液相色谱(HPLC)、厚制备板、凝胶柱等手段,结合核磁共振、红外、紫外、高分辨质谱、E