中文分词在聊天机器人中的应用研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:alsbzxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的日益信息化,人们希望能用自然语言与计算机交流,聊天机器人就是这样一种通过自然语言同人进行交流的人机对话系统。ALICE是一个基于经验的人工智能聊天机器人,由于它在问句查询推理过程中是以词为单位的,而中文句子中词与词之间没有明显的分隔符,所以它不能支持中文聊天。中文分词的功能就是把中文句子的汉字序列切分成有意义的词序列,因此分词技术是支持中文的智能聊天系统的一个关键技术。 本文紧紧抓住分词技术在聊天系统中的基础性地位进行研究,通过分析聊天系统中用户输入的特点选择适合支持中文的智能聊天系统的分词算法。在对现有的分词技术进行深入分析的基础上,结合中文字词的特点,提出了一种改进的分词词典结构。该结构的基本原理是以首字为索引建立首字hash表,将同一首字下不同长度的词分类组织在不同词表内,各词表内的词条按顺序排列,基于此词典结构,设计了相应的双向最大匹配分词算法。由于词典结构支持首字hash查找和二分查找,分词算法的时间复杂度是很低的。 通过对ALICE聊天机器人原型系统进行研究分析,针对其不支持中文聊天的缺陷,论文介绍了在系统整体框架不变的前提下,向其推理机制中加入中文分词功能,使其在处理中文句子时也像西方语言一样以词为单位进行查询推理,从而在和用户交互的过程中具有中文聊天的功能。 本文通过研究分词技术及其在智能聊天机器人中的应用,将中文分词模块集成到现有的聊天机器人中,初步实现了聊天机器人的中文聊天。
其他文献
云计算作为国内外科研机构的研究重点,它是继分布式计算、并行计算和网格计算之后的一种新兴计算模式。这种基于服务的资源提供模式,将各种资源虚拟化为服务,任务调度技术一
随着人类社会的不断进步,印刷品的需求在不断的增加,同时由于印刷品工艺和印刷技术的提高,人们对印刷品的质量和多样性也有着越来越高的要求。然而,在印刷品生产过程中,由于印刷
软件工程是指导计算机软件开发和维护的一门工程学科,强调采用工程的概念、原理、技术和方法来开发与维护软件。把经过时间考验而证明正确的管理技术和当前能够得到的最好的技
云计算是近期业界研究热点之一,它不仅提高了操作和管理效率,还显著地降低了运营成本,适应网络发展的需求,为不同领域提供了一种新的共享基础架构。世界上许多国家的政府部门、科
CT心脏图像检索是医学CT图像检索的重要组成部分,如何在浩瀚的医学图像数据库中检索出心脏图像是医学影像辅助心脏疾病诊断要解决的重要问题。医学CT图像的特征主要表现为灰
立体视频编码与传输是当前视频信号处理领域一个重要的研究方向。而目前大多数的有线、无线通信网络均不能提供可靠的服务质量保证,立体视频流在传输过程中,不可避免地会有误
视频镜头边界检测是视频检测和索引的首要步骤,本文在总结分析现有的镜头边界检测技术的基础上,深入研究了从视频帧特征提取到阈值选择的边界检测全过程,通过分析镜头的变化
网格工作流是将工作流管理和网格计算相融合,为下一代分布式协作的工作流系统设计提供了一种非常有前景的解决方案,它可以方便地构建、执行调度、管理和监控网格应用,使得网格应
Web挖掘是传统的数据挖掘理论在Web中的应用,其涉及多学科领域的知识,如计算机网络、数学、人工智能等,是一个交叉性的研究领域。Web结构挖掘(WebStructure Mining)是Web挖掘
对等网络(P2P,Peer-to-Peer)作为一种新兴的网络计算模式,打破了传统的C/S模式,其应用越来越广泛。但是随着对等网络规模和用户量的增加,P2P环境下的信息量也随之飞速增长,给用户在