论文部分内容阅读
近年来,随着网络信息技术的快速发展,网络信息传播颠覆了传统的社会舆论环境,并逐渐占据了领导地位。然而,网络的便捷高效和信息的无差别传播也让许多负面消息、不利于社会安定团结的消息广泛传播。因势利导,为营造网络舆论健康环境,加强网络舆论引导力度迫在眉睫。其中一个重要的问题就是舆论引导帖文的自动生成技术。然而,传统话语复述、规则生成帖文的方式智能化水平不高、引导效果不佳。深度生成模型的提出为自然语言文本生成带来了技术革命,打破了以往基于模板和规则的生成定式。本文研究了基于深度学习的条件文本生成技术及其应用,主要研究成果如下:(1)研究了情感可控的条件文本生成。针对当前基于情感迁移的条件文本生成方法在模型内部隐变量表征上存在文本属性纠缠,导致生成文本语义不畅的问题,提出了一种基于情感迁移的条件文本生成方法,通过迁移给定文本情感值的方式生成具有目标情感值的人工文本。该方法首先利用大规模情感词典来匹配句子中的情感词并用“mask”符号代替;之后,利用掩码自编码器生成被代替的情感词,保持其它词不变,从而缓解了文本属性纠缠问题。实验结果表明,该方法能在保持文本主题内容不变的同时,对生成文本有较高的情感控制率,并提升生成文本的流畅性。(2)研究了情感与主题可控的条件文本生成。针对当前条件文本生成方法期望利用深度学习模型来推断独立于情感的句子级内容表征的难题,提出了基于主题关键词的条件文本生成方法。该方法首先根据词性类别,设计了三种主题关键词抽取方案,以抽取句子中不含情感信息的主题关键词;其次,使用主题关键词的嵌入表征代替句子级嵌入表征作为生成模型的输入,模型不再需要推断与情感无关的内容表征,从而避免了不稳定的对抗训练过程;然后,采用基于单层LSTM的自编码器模型,训练文本生成模型;最后,根据给定主题关键词和目标情感值,利用训练好的模型,生成情感与主题可控的人工文本。实验结果表明,该方法突破了传统句子到句子的生成方式,引入了主题关键词到句子的生成方式,能自由地定制生成文本的主题与情感,并适用于长文本条件生成。(3)研究了融入主题、情感和文风的网评帖文生成。针对网络舆论引导帖文需要融入主题、情感和文风的特殊需求,在上述研究成果的基础上,提出了基于深度学习的网评帖文生成方法。该方法利用特定舆论事件相关网络评论构建训练语料,获取事件主题信息和网民文风信息;进一步,根据语料中正、负面评论是否均衡,分别利用基于主题关键词的条件文本生成方法和基于变分自编码器的随机文本生成方法,训练网评帖文生成模型;最后,利用训练好的模型,生成融入主题、情感和文风的网评帖文。实验结果表明,该方法能有效提升网评帖文的生成效果,满足了网评帖文生成的工程需求。