论文部分内容阅读
随着社会的日益信息化,人们希望能用自然语言与计算机交流,聊天机器人就是这样一种通过自然语言同人进行交流的人机对话系统。ALICE是一个基于经验的人工智能聊天机器人,由于它在问句查询推理过程中是以词为单位的,而中文句子中词与词之间没有明显的分隔符,所以它不能支持中文聊天。中文分词的功能就是把中文句子的汉字序列切分成有意义的词序列,因此分词技术是支持中文的智能聊天系统的一个关键技术。
本文紧紧抓住分词技术在聊天系统中的基础性地位进行研究,通过分析聊天系统中用户输入的特点选择适合支持中文的智能聊天系统的分词算法。在对现有的分词技术进行深入分析的基础上,结合中文字词的特点,提出了一种改进的分词词典结构。该结构的基本原理是以首字为索引建立首字hash表,将同一首字下不同长度的词分类组织在不同词表内,各词表内的词条按顺序排列,基于此词典结构,设计了相应的双向最大匹配分词算法。由于词典结构支持首字hash查找和二分查找,分词算法的时间复杂度是很低的。
通过对ALICE聊天机器人原型系统进行研究分析,针对其不支持中文聊天的缺陷,论文介绍了在系统整体框架不变的前提下,向其推理机制中加入中文分词功能,使其在处理中文句子时也像西方语言一样以词为单位进行查询推理,从而在和用户交互的过程中具有中文聊天的功能。
本文通过研究分词技术及其在智能聊天机器人中的应用,将中文分词模块集成到现有的聊天机器人中,初步实现了聊天机器人的中文聊天。