基于交互式问答的日常对话系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fang82888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,搜索技术的发展推进了以搜索为基础的在线问答系统的出现,以及更高级的交互式问答系统在各个领域的应用。交互式问答系统是指人与系统之间能够用自然语言的形式,进行交互的、上下文相关的、在一个会话过程中连续的对话。目前的交互式问答系统多是针对某一具体领域的,系统的表现性能,很大程度上依赖于该领域知识库的规模。系统的回复即是在该知识库中搜索到的与用户问句匹配的答案。领域不同,对应的知识库不同。但是,以日常对话为内容的问答,是基于任一领域的日常问答系统都涉及到的。而且,系统在日常对话方面回答的优劣,在很大程度上,会影响到用户对整个系统性能的评价。如何提高交互式问答系统在日常对话中的人性化和智能化,是本课题的主要研究内容。  本课题主要从以下几个方面着手:  (1)按类别组织构建日常对话问答库  将日常对话功能视为交互式问答系统的一个独立模块,建立该模块的对话知识库。按照日常对话所讨论对象的范围,将知识库分为19个类别,选用AIML语言编写。通过ALICE系统的接口,对用户的问句,使用基于模式匹配的算法在知识库中搜索匹配答案,给出回复。AIML语言支持两种正则表达式模糊匹配,一定程度上,扩大了系统可应答范围。  (2)用户对话按照对话场景进行层次分类,给出基于类别的回复处理对于在日常对话库中无法准确匹配的问句,按其所属的对话场景进行分类,针对类别给出对应的处理方法,或者基于类别的模糊回答。本课题中,收集、观察并分析了用户与系统间的问答记录,根据人机对话场景、系统的回答模式和用户的提问方式,确定了日常对话分类的类别。经过初步试验,对日常对话分类类别进行了调整,最后通过两层分类实现。分类所用语料为经过多人标注的真实环境下的人机问答对话记录。第一层分类用金融词汇对问句进行过滤,得到日常类对话。第二层分类是对日常类对话进行细分类。通过分析日常类对话在各个类别的分布,将最初的19个类别调整为最终的14个类别标签。对问句提取的特征,包括:词、扩展词、词性、语义、问句模板、正负情感词、句子结构等,使用信息增益方法进行特征选择,并分别用朴素贝叶斯、k最近邻和支持向量机的分类方法进行分类测试。在收集到的1002条问句的测试集上,最终的分类准确率达到了68.84%,召回率为63.50%,F1值为61.99%。在日常对话知识库中匹配失败的问句,针对其分类类别进行对应场景下的处理方式。  (3)用户问句复述识别  识别同一用户的重复提问,并给出人性化提示,而不是反复给出相同的检索答案,是系统智能性得到提高的一个表现方面。问句复述的判定,还可以用来识别出库中与用户对话同义的对话,扩大可以应答的范围。问句复述的识别,通过问句相似度计算的方法来实现。一种是基于词频的方法,一种是借助于 HowNet、基于语义的方法。本课题,在收集的相似日常对话测试集上,进行了多组对比实验,将最终的问句复述判定阈值设为0.9211。
其他文献
收益最大化问题是科学研究、股票投资和商业投资中的热门话题。此问题在新股申购决策以及公司新产品投资的过程中表现得尤为突出。本文针对该问题,提出了分合增益模型,并将该
视频监控系统在诸多领域发挥着极其重要的作用,由于计算机视觉的方法有着成本低廉、部署方便等优势,使得近年来多摄像机系统的应用越来越广泛。摄像机网络中的目标跟踪在维护公
虚拟现实技术,是一项运用现代的计算机技术来构建的一个类似于客观环境、可以让人们沉浸其中并且自由驾驭的人机环境的技术。虚拟场景的绘制方法概括起来主要有两种,分别是基
目前,用户声誉系统被大规模应用于各种电子商务网站,每次交易中的双方用户通过交易后对系统的反馈信息,来达到对对方声誉值的影响,从而督促用户在交易中培养出好的行为,恪尽
随着信息技术的发展,在互联网上进行金融行为的人越来越多。在金融领域,每时每刻都有大量的信息通过互联网公布。由于网络本身所具有的信息量庞大、信息来源不固定、文本化表
随着计算机网络的飞速发展,人们的生活得到了巨大改善,同时安全问题日益凸显,不断衍生出内网、外网等复杂网络结构,单向传输系统是内外网数据传递的理想方式,但现有单向系统
手背静脉识别是一项新兴的生物特征识别技术,研究开始于二十世纪九十年代。相对于指纹识别、虹膜识别等技术,该技术起步较晚,系统开发还不够完善和成熟,但是凭借着非接触、活
心血管疾病关系全球的健康问题,医学影像技术是当前诊断疾病的主要手段,一个准确的血管可视化分割工具在临床中越加重要,应用广泛,例如疾病诊断,手术规划,疾病监控等。当今,
随着全球信息化进程的推进,无线射频识别(Radio Frequency Identification)技术已经在各个领域得到广泛应用,包括物流、交通运输、医疗保健、工业、  商业、金融、海关及政
随着互联网时代的到来,信息在传播途径上发生了翻天覆地的变化,人们可以轻易的从网络上下载海量数据,文本聚类作为一种有效的文本组织手段,可以帮助人们发现网路上热点的问题