论文部分内容阅读
自然语言生成作为自然语言处理比较重要的一部分,正在被各大高校和研究机构等研究利用。随着深度学习和大数据的浪潮兴起,自然语言生成有了阶段性的突破,例如对话系统、新闻自动生成等。国家863重点项目——高考机器人是涉及自然语言处理方面的一项具体内容。其中语文作文部分至关重要,所占分值较大,所以让计算机根据作文题目,自动生成一篇作文具有很大的挑战。目前生成作文所采取的方法分三步:立意分析-句子抽取-句子排序,但是这种方法对语料的依赖性较大,当作文题目在作文语料中涉及较少时,会影响所生成的作文质量。为解决这一问题,本课题提出了作文仿写的方法,作文仿写根据已有的相关主题作文范文,仿照其句式等生成另一篇作文。本课题根据作文中句子的角色信息,提出词语级和句子级作文仿写方法,对不同角色的句子采用不同的方式进行仿写。基于词语级作文仿写,主要针对作文中论点句,论据句等角色的句子进行仿写。该方法首先根据一定的规则获取句子模板,第二步获取候选词集合,本课题采用相似度、同义词、Bi-gram、基于句子上下文特征信息等方法来获取候选词集合。最后,进行词语替换,这里本课题采用语言模型的方法,选取概率最大的词进行替换。根据替换结果可以得出基于上下文特征得到的候选词集合效果最好。基于句子级的作文仿写任务主要针对作文中句子角色为事例句的句子进行研究,由于事例句中人物和事迹存在一一对应问题,利用词语级仿写方法可能会出现人物事迹不匹配等问题,本课题提出句子级仿写的方法,也可理解为句子级复述问题。对于这一问题,本课题首先尝试了基本seq2seq模型用于句子复述,并在此基础上加入attention机制,比较句子生成结果,可以得出加入attention机制的模型生成结果效果要好。此外本课题提出copy机制和coverage机制对模型进行改进,其中copy机制旨在解决原句中出现人名、地名等特殊词汇的情况,这样情况我们希望模型可以对词进行复制,不进行改变,实验结果证明,copy机制对这一情况有所改善。此外,针对seq2seq普遍存在的重复问题,我们在copy机制的基础上加入coverage机制,有效改善了生成句子的重复问题。