基于检索与生成模型相结合的聊天机器人关键技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:moon_pine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能音箱、在线客服走进日常生活的多个领域,人们与机器对话的频率明显升高,面向开放领域的聊天机器人的重要性也就日益凸显出来。聊天机器人以模仿人类进行对话为目标,不仅可以降低企业在客服方面的成本,还能满足用户日常聊天的需求。因此,聊天机器人成为计算机领域的一个研究热点。目前面向开放领域的聊天机器人以数据驱动的模型为主,能够从规则驱动发展到数据驱动,主要得益于社交媒体的普及和计算机硬件的发展,社交媒体的普及产生了大规模的对话语料,计算机硬件的发展则加速了大吞吐量的计算。从实现方式看,数据驱动的聊天机器人可以分为检索式和生成式两类,前者通过上下文相似度匹配回复,后者则根据上下文生成回复。以上两种方式各有利弊,检索式的回复信息量丰富但是缺乏相关性,生成式的回复相关度高但信息量匮乏。因此,本文着眼于取检索之长补生成之短,将检索式模型融入生成模型中,构建联合模型进行对话生成。本文主要研究内容包括:(1)提出了基于多视角对抗学习的开放领域对话生成模型(Response Generation by Binary Discriminator,RGBD)。该模型主要由两部分组成,以生成逼真回复为目的的生成器和以鉴别生成回复为目的的二元判别器。该模型的创新点在于,采用了二元判别器进行多视角的对抗训练,其中,单句判别器通过卷积神经网络建模生成的句子,然后计算这句话被判为“假”的概率;对话判别器基于长短期记忆网络对上下文信息和生成的回复进行不同粒度的建模,然后计算这组对话被判为“假”的概率。在公开的豆瓣中文对话语料上进行验证,实验结果表明模型的确能够提高生成回复的信息量和上下文相关性。(2)提出了检索与生成结合的对话生成再润色模型(Retrieval-Polished Response Generation,RP)。该模型以检索得到的回复为参考,对生成的回复进行润色以得到更流畅、信息量更多的回复。首先,检索模型根据上下文相似度筛选得到润色原型。然后,模型对上下文和润色原型进行特征提取并依次解码得到润色后的回复。最后,模型引入了回复筛选器,在检索原型和润色后的回复之间择优选择。在公开的豆瓣中文对话语料上进行实验,无论是自动评测还是人工评分,模型在多样性、相关性、信息量上都取得了较好的成绩。(3)将以上模型部署到现实应用中,构建了基于微信公众号的聊天机器人。该聊天机器人访问便捷、简单易用,用户只需登录微信,在公众号的聊天界面中即可实现人机对话。
其他文献
<正>整容产业在此刻的空前繁荣俨然是让女人们遗忘了贞节的历史噩梦,事实上,"女为悦己者容"时代所需要的不只是女人的外貌,它同时还要求女人的贞节,贞节甚至比外貌更加重要。
综述了纺织工业中表面活性剂的应用,包括纤维制品加工过程中涉及到的各种表面活性剂的重要作用,并就润湿、乳化、清洗、匀染和抗静电剂等方面的应用论述了表面活性剂的主要品
认知心理学家加德纳所提出的多元智能理论,打破了“一元智能”观的局限性,其众多优势对中国的教育教学产生了深远的影响。人际交往智能理论作为多元智能理论的重要方面,其特
国家能力的集中体现就是一个国家的制度能力,中国叠加转型的社会发展际遇与现代化发展诉求迫切要求国家制度能力的提升。国家制度能力基于制度类型主要指制度构建能力、制度实
<正>近日,被誉为"质量奥林匹克"的第44届国际质量管理小组会议在日本东京召开。会上,格力质控部"大圣归来"小组对"降低变频外机控制器器件破损故障率"相关研究成果做了精彩展
蔬菜采后损失是一个全球性问题,其中微生物侵染引起的损失最为普遍和严重。植物源防腐保鲜剂已引起世界范围内的极大关注,但存在成本高、使用效率低及作用靶向不明确等问题,
韩国电视剧《太阳的后裔》自开播以来在中国互联网络开启霸屏模式,这部中韩同步直播的韩剧在爱奇艺的播放量超过26.8亿,打破了2年前《来自星星的你》13亿的播放量纪录,掀起全
采用内包层直径为125μm的双包层掺镱光纤,搭建了谐振腔结构全光纤激光器系统,获得了1018 nm的高功率激光输出。通过优化光纤长度和控制抽运源波长,单模激光输出功率为254 W,
目的 探讨老年肺部细菌性感染合并真菌感染的原因。方法 回顾性地分析了 36例老年肺部细菌性感染合并真菌感染的相关临床因素。结果 老年肺部细菌性感染合并真菌感染与老
山水写生,不同于摄影,不是原封不动的照搬自然物,它是画者走进自然物,对客观自然目识心记,认真感悟后主观处理的绘画结果。自然山水的实体样貌是客观因素,而画者的体悟和感觉是主观