融合检索模型与生成模型的开放域对话系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lustt005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
建立可以与人类进行连续交流的开放域对话系统一直是人工智能的长期目标,同时也是一项极具挑战的任务。不同于帮助人们完成特定目标的任务型对话系统,开放域对话系统旨在让用户在开放域中进行人机对话,以获得娱乐或情感陪伴。基于检索模型或生成模型的端到端方法是当前开放域对话系统的主要实现方式,如何发挥上述两种方法的优势,将其结合是当下研究的重点和难点。本文实现了融合检索模型和生成模型的开放域对话系统,并将其进行评价和演示。本文的研究内容主要归纳为以下三点:(1)设计并实现了控制开放域对话系统策略选择的决策单元。本文所实现的开放域对话系统由决策单元和生成回复单元构成。决策单元对用户输入进行分析,通过用户输入是否命中既定规则、用户输入是否包含实体以及用户输入的情感类别三种方式进行决策,选择生成回复单元中合适的方式进行回复。(2)设计并实现了以检索模型和生成模型为核心的包含四种不同回复方式的生成回复单元。本文实现了基于BM25粗召回与Sim BERT精排序的检索模型,并提出两个检索语料库,通用知识问答语料库和负面情绪问答语料库。同时本文实现了基于GPT的生成式对话模型,利用大规模预训练模型GPT在LCCC多轮闲聊对话数据集和豆瓣单轮鼓励式对话数据集分别训练得到多轮闲聊对话模型和单轮鼓励式对话模型。基于上述模型和数据集实现了基于规则模板的回复,通用知识问答回复,情感支持回复和闲聊回复。(3)完成了开放域对话系统的实现、评价、部署和演示。本文实现了融合检索模型和生成模型的开放域对话系统并将其部署至服务器,设计前端网页便于用户访问。采用客观评价和人工评价两个维度对系统进行评价,实验结果表明,相比于基于单一生成模型实现的对话系统,本文的对话系统在生成多样性及平均回复句子长度指标中表现更优。采用人工设计评分标准,对本次实验所积累的真实对话语料进行评分,本文所实现的对话系统取得了优异的成绩。
其他文献
在信息技术快速发展的背景下,文本信息呈现出“爆炸”的状态,军事领域也不例外,面对“爆炸式”的军事文本,情报分析人员需要一种高效的技术手段辅助其分析情报。利用自然语言处理技术处理文本信息,辅助相关人员分析情报,是解决上述问题的先进技术之一。作为自然语言处理领域热点方向之一的事件抽取,在军事情报分析领域中的作用非同小可。本文立足于军事领域,对事件的抽取及应用等问题进行研究。由于军事领域的特殊性,目前公
学位
数据到文本生成,即将结构化的数据进行概括抽象,生成能够满足人类阅读需求的文本,生成的文本应当符合基本的语法结构,流畅通顺,语义表达清晰准确。传统的模块化的生成框架将数据到文本生成任务显式的划分为内容规划、句子规划、文本实现三个模块,串联的模块之间存在着误差累积的现象,并且模块中针对特定领域的任务设计了大量的人工设计的规则,导致文本生成框架受限于特定领域,不具有泛用性。基于深度学习的数据到文本生成模
学位
药物开发是生物医学领域的重要课题,面对一种新型疾病时,合成新的药物分子往往过程复杂、漫长,成功率低,且耗费大量人力、资金。通过已知的药物-靶蛋白相互作用信息,从已有的药物中预测并筛选出可能对该疾病有作用的药物,将会大大减少药物开发的时间与成本。研究人员已经开发出了多种针对药物-靶蛋白相互作用(Drug-Target Interaction,DTI)的计算机预测方法,但是它们在预测精度上仍然存在不足
学位
冲击地压是当前世界范围内煤矿开采中最严重的灾害之一,在其发生时,煤矿井下的几米甚到几百米的巷道都可以被瞬间摧毁,严重影响了煤矿开采安全环境。本文针对当前我国千米深井煤矿开采现状,结合国家在“十四五”期间关于煤矿安全开采的战略规划,采用理论分析与现场工程实践等方法,以辽宁某千米深井冲击地压矿井为主要研究对象,按照煤矿实际情况开展地面微震监测研究,根据监测结果分析矿井开采期间地面微震事件的演化规律,并
学位
随着人口的快速增长和现代工业的发展,一系列的环境污染已经成为整个社会发展的关键问题。大量的工业、生活废水及医用抗生素废水被释放到环境中去,对人类及动物的健康和环境的可持续发展产生了重大影响。传统的废水处理方法如物理处理法、生物处理法和化学处理法等往往具有处理成本高,操作复杂以及处理后会对环境造成二次污染等问题。近年来,光催化氧化技术因其具有极高的反应活性、高的处理效率、低成本以及对目标污染物的完全
学位
尾矿库是冶金、有色、建材等多个行业用于贮存尾矿和澄清水的重要设施,同时也是重要的安全环保设施。尾矿库重金属污染防治是矿山环境治理的重点工作之一,铜、铅、锌等重金属是尾矿库的常见污染物。因此,尾矿库的一系列污染问题愈加引起重视,开展降雨和植被条件下尾矿库重金属迁移规律的研究,具有重要现实意义。本文将室内土柱降雨淋滤试验与Geostudio数值模拟相结合,以实际尾矿库为工程背景,开展降雨和植被条件下尾
学位
近年来,环境污染和能源短缺已经成为影响人类生存和社会发展的两大难题。大力开发高效的环境治理技术和清洁的可再生能源已成为当务之急。而光催化技术利用太阳能可以产生强氧化性的光生空穴和强还原性的光生电子,从而能够实现降解有机污染物同时制氢。因此,光催化技术是一种有望同时解决上述两个难题的方法。将两种或多种带隙匹配的半导体复合所构建的Z型光催化体系具有太阳光利用率高、氧化还原能力强以及化学稳定性高等特点,
学位
在如今的服务互联网环境中,用户往往使用提供服务的平台获取服务内容,而平台则根据用户自身使用过的服务内容获取用户的服务需求,并据此对用户进行服务推荐。但是仅仅通过平台获取的用户服务需求类型较为单一,用户自身更多的潜在服务需求无法获取,而且仅仅通过这些服务需求无法对用户进行更有效、更准确的服务推荐。因此,如何从更多的渠道中获取用户更丰富、更详细的服务需求成为一个十分重要的问题,而社交媒体中恰恰蕴含着用
学位
随着大规模基因组计划在世界各地如火如荼地进行以及测序技术的发展与变革,基因组数据正以磅礴的体量飞速增长。SNV变异检测作为对这些庞大繁杂的基因组数据进行分析的重要组成部分,对生物遗传进化、细胞生命活动、疾病预防诊断与治疗、基因工程农作物化妆品食品新能源等的研究与应用都有重要意义。现有变异检测方法通常是先将测序数据比对到参考基因组上,再基于比对结果进行变异的识别。然而,这些比对算法并非直接针对变异检
学位
显著性检测任务作为计算机视觉领域的一个基本问题,除了包含对普通RGB图像的显著性的检测,还包含对带有深度信息的RGB-D图像的显著性检测,对一组图像进行的共显著性检测,以及对视频进行视频显著性检测等子任务。随着深度学习技术的发展,由于强大的表征学习方法,基于深度学习的显著性检测算法的性能明显超过了传统的解决方案,在各种基准测试排行榜上保持领先地位。基于深度学习的RGB图像显著性检测任务通常是先使用
学位