论文部分内容阅读
随着深度学习研究不断取得突破,深度学习技术更加广泛地应用在自然语言理解、词向量技术、中文分词、情感分析等领域。相比基于检索技术的聊天机器人,基于深度学习的聊天机器人扩展性更强,系统开发效率也更高,有着非常广阔的发展前景。目前seq2seq模型是最常用于开放领域聊天机器人的深度学习模型,但传统seq2seq模型直接应用于聊天机器人会有一些问题,如长距离依赖问题、安全回复问题等。针对传统seq2seq模型存在的问题,本文提出了一个聊天机器人对话模型,即注意力机制、集束搜索算法、BiLSTM与传统seq2seq模型相结合得到的聊天机器人对话模型。具体的研究工作如下:(1)本文研究了词嵌入相关技术。传统的文本表示方法,无法表现出单词之间的语义相似性,且当词典数量极大时,会出现向量维度大的问题。word2vec通过将语义相近的词映射到向量空间中相近的位置,使得词向量带有语义信息,并通过“降维”降低运算量。(2)本文详细分析了传统seq2seq模型的长距离依赖问题,提出了使用BiLSTM和注意力机制。传统seq2seq模型使用的LSTM无法编码从后到前的信息,BiLSTM可以更好地捕捉双向的语义依赖,解决了丢失部分语义信息的问题。传统seq2seq模型在编码和解码时都只使用一个固定长度向量,注意力机制通过保留编码器输入序列的中间输出结果,利用训练模型对这些输入进行选择性的学习,并且在模型输出时将输出序列与之进行关联,从而解决了长文本序列信息丢失的问题。(3)本文研究了传统seq2seq模型的安全回复问题。传统seq2seq模型中解码器的输出原则是直接输出候选结果集中概率最大的语句,但概率最大的语句往往是语料库中最常见的语句,如“我不知道”、“你好”等安全回复。本文采用了集束搜索算法,通过排序和剪枝使本文的聊天机器人对话模型比传统seq2seq模型生成的回复更多样,很好地改善了安全回复问题。使用TensorFlow框架实现本文提出的聊天机器人对话模型,并使用中文对白对本文提出的聊天机器人对话模型进行训练。通过最后的实验效果对比,验证了本文提出的聊天机器人对话模型是有效和可行的。