论文部分内容阅读
随着智能音箱、在线客服走进日常生活的多个领域,人们与机器对话的频率明显升高,面向开放领域的聊天机器人的重要性也就日益凸显出来。聊天机器人以模仿人类进行对话为目标,不仅可以降低企业在客服方面的成本,还能满足用户日常聊天的需求。因此,聊天机器人成为计算机领域的一个研究热点。目前面向开放领域的聊天机器人以数据驱动的模型为主,能够从规则驱动发展到数据驱动,主要得益于社交媒体的普及和计算机硬件的发展,社交媒体的普及产生了大规模的对话语料,计算机硬件的发展则加速了大吞吐量的计算。从实现方式看,数据驱动的聊天机器人可以分为检索式和生成式两类,前者通过上下文相似度匹配回复,后者则根据上下文生成回复。以上两种方式各有利弊,检索式的回复信息量丰富但是缺乏相关性,生成式的回复相关度高但信息量匮乏。因此,本文着眼于取检索之长补生成之短,将检索式模型融入生成模型中,构建联合模型进行对话生成。本文主要研究内容包括:(1)提出了基于多视角对抗学习的开放领域对话生成模型(Response Generation by Binary Discriminator,RGBD)。该模型主要由两部分组成,以生成逼真回复为目的的生成器和以鉴别生成回复为目的的二元判别器。该模型的创新点在于,采用了二元判别器进行多视角的对抗训练,其中,单句判别器通过卷积神经网络建模生成的句子,然后计算这句话被判为“假”的概率;对话判别器基于长短期记忆网络对上下文信息和生成的回复进行不同粒度的建模,然后计算这组对话被判为“假”的概率。在公开的豆瓣中文对话语料上进行验证,实验结果表明模型的确能够提高生成回复的信息量和上下文相关性。(2)提出了检索与生成结合的对话生成再润色模型(Retrieval-Polished Response Generation,RP)。该模型以检索得到的回复为参考,对生成的回复进行润色以得到更流畅、信息量更多的回复。首先,检索模型根据上下文相似度筛选得到润色原型。然后,模型对上下文和润色原型进行特征提取并依次解码得到润色后的回复。最后,模型引入了回复筛选器,在检索原型和润色后的回复之间择优选择。在公开的豆瓣中文对话语料上进行实验,无论是自动评测还是人工评分,模型在多样性、相关性、信息量上都取得了较好的成绩。(3)将以上模型部署到现实应用中,构建了基于微信公众号的聊天机器人。该聊天机器人访问便捷、简单易用,用户只需登录微信,在公众号的聊天界面中即可实现人机对话。