交互式问答中的语句关系识别方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:afdwer213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和信息量的迅速增长,人们迫切需要一种准确、高效的信息获取方式。从搜索引擎到智能交互式问答系统,信息的获取方式越来越接近于自然交互。一方面因为海量数据的出现,另一方面因为机器学习和自然语言处理等技术的长足进步,问答系统进入了面向各领域、基于自由文本和异构信息、基于生成式的智能交互式问答发展阶段。与搜索引擎不同的是,用户无需在多条候选文档中选择,问答系统能更好的理解以自然语言形式描述的问题,同时返回简洁精确的答案。随着Siri和Watson的成功问世,智能交互式问答系统成为了近年来的一个研究热点,在商业领域也越来越具有代替人工客服的潜力。然而,要构建更加智能的交互式问答系统,从已有的客服日志中学习知识就显得非常重要,而如何从复杂的交互式问答客服日志中识别问句与答句之间的匹配关系以及连续语句之间的补充关系则成为了构建学习系统的关键。本文主要针对交互式问答中的语句匹配关系识别和补充关系识别进行了研究。针对客户问句与客服回答之间的匹配问题,本文分别构建了基于CNN的语义匹配模型和基于RNN的生成模型,模型的输入层是句子的词向量矩阵,输出层是问答匹配的置信度。分别在Semeval-2016社区问答数据和在线客服对话数据上,进行了不同模型的性能对比。同时对问句的完整性、生成模型的不同结构、阈值选择以及客服数据的抽取方式等进行了对比实验分析。实验结果表明,在社区问答数据中,本文中基于CNN的匹配模型优于RNN生成模型;在客服对话数据中,基于RNN的序列学习模型能够更好的学习到场景对话中的上下文信息。在基于每轮对话且问句完整的数据上,MAP达到了84.41%。针对交互式问答中连续语句之间存在的上下文相关联的潜在语义补充关系,本文研究了句子补充关系的识别。在深度模型上,构建了并行CNN和串联LSTM对句子对进行抽象语义特征提取和建模。分别采用支持向量机、基于CNN的模型和基于RNN的模型,对句子对的补充关系进行分类。实验结果表明,基于CNN的识别方法优于其他对比方法,其F1值达到了67.8%。最终,将补充关系识别和匹配关系识别相结合应用于交互式问答语义匹配。
其他文献
社会标注系统是一个为网站用户提供标签标注功能的应用系统。随着Web2.0的兴起,以社会标注机制作为主要功能的内容共享系统发展迅速,其中的典型应用比如共享网页的Delicious
最近几年,随着经济的发展,科学技术的进步,计算机视觉技术和多媒体处理技术得到了迅猛的发展,目标检测与跟踪技术的研究成为了计算机视觉领域的两个重要课题,是更高层次视觉
利用OpenAPI,将Inernet上的碎片化数据混搭在一起构建新型的应用,已成为当前Web应用开发中的一种潮流和趋势。然而,开发人员在搭建Mashup应用时面临诸多困难和挑战。本文旨在
智能视频监控领域的行人流量统计技术是指采用基于计算机视觉的方法统计某一时间段内出入某个通道的行人流量。因其高度的适应性和非侵入性,该技术可以自然融入到已广泛使用的
在石油勘探和开发过程中,为了评价储层的好坏,需对井下取得的储层岩石样品进行孔隙结构分析,其中储层结构分析所需的主要参数是由毛管压力曲线确定的。所以,岩石毛管压力曲线
在网络信息时代,随着通信技术的不断发展,即时通信得到了广泛应用,产生了巨大的短消息数据,短消息数据中蕴藏了大量有用信息资源,如何对短消息数据进行采集、存储、分析和挖掘,对于
随着计算机技术,特别是Internet的迅速发展,可共享的资源越来越多,各种Web数据库中已经存放了涵盖各个领域的大量有价值的信息,成为人们获取信息的主要渠道。然而由于Web数据库所
近年期货公司发展迅猛,势头强劲,期货公司用于服务个人用户和其他实体企业的系统平台成为整个期货行业的迫切需求,本项目正是在此背景下研发的。本文的目标是为期货公司开发
监控环境的多样性和复杂性导致视频分析算法的鲁棒性较差,对于复杂的算法,在嵌入式环境下也不能满足实时性需求。为了使得视频分析算法适合应用于嵌入式环境,本文主要研究嵌
无线传感器网络是一个热点的研究领域。随机分布的大量传感器节点,以无线的方式构成网络,感知各种物理参数并将数据汇聚到数据管理中心。为了满足远程管理的需要,数据管理中