面向电力智能客服领域数据受限场景下人机交互任务的研究与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zxpmine01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以神经网络为代表的机器学习模型在图片、文本、音频等各个领域都得到了非常广泛的应用。这些机器学习模型的良好性能往往建立在高质量的数据集的基础上。但是大规模地进行数据收集需要一定成本,且大规模地进行数据标注也非常困难。因此,对于部分任务或部分领域,想要拥有大规模高质量的数据集非常困难,从而导致模型性能受限于收集到的数据样本。在这种数据受限的情况下,如何有针对性地对任务进行处理,使得算法模型仍然保持较好的性能便成为了一个非常重要的课题。为了研究机器学习任务在现实数据受限情况下的优化方法,本文选取了电力领域智能客服机器人作为具体场景。以电力领域智能客服机器人这一场景为例,在该场景下有两个重要研究课题:如何在业务方面对用户进行准确的意图识别以及如何在业务交互的基础上体现一定的情感交互能力。这两个研究课题都面临着一定的数据受限问题。对用户意图识别这一课题而言,由于电力环境的复杂性,大规模地进行业务数据收集是非常困难的,因而导致用户意图识别数据很少,模型性能受限,需要更为高效地利用收集到的数据样本。而对机器人情感交互而言,本文希望在基本的情感交互(例如判断用户的情感极性)基础上,机器人具备更高层次的情感属性,例如共情。但目前情感极性数据集很多且训练样本充足,因而相关模型性能较好,但共情数据集样本量很少,从而导致共情相关模型预测精度较低。基于此,本文在构建电力领域智能客服机器人的过程中对两个数据受限场景下的机器学习任务进行了研究与优化,并进行了相关的工程实践工作,具体内容总结如下:1、提出了面向电力领域用户业务意图识别的课程学习策略。电力营业厅这一场景由于环境的复杂性,很难进行大规模的数据收集。且由于领域的特殊性,电力领域的业务样本分布与其余领域的样本分布差异较大,因而难以相互借鉴。电力领域数据集的一大特点是由于用户的多样性导致样本的识别难度差异很大。课程学习是一种按照不同难度依次将样本送入模型中进行学习,从而提升模型性能的方法。因此,本文提出了一种基于语义距离的课程学习策略。该策略首先对语义距离进行了定义,并通过基于语义距离的规则词典对样本按照识别难度的不同进行了划分。对于划分后的数据集,该策略设计了两种课程来使得样本按照由易到难的顺序依次送入模型中进行训练。除此之外,所提策略还基于语义距离词典在网络模型中设计了多个特征编码器与一个注意力模块。最终在面向电力营业厅的用户意图识别数据集上所得到的实验结果说明本文所提方法的有效性。2、提出了通过极性分类任务辅助共情预测任务的迁移学习方法。极性与共情都是情感属性的一种,且对于人机交互,智能客服这类领域至关重要。但目前文本极性分类任务的相关数据集中包含大量的训练样本,而共情预测任务却严重受限于数据集内训练样本的匮乏。基于此,本文提出了一种迁移学习方法,该方法可以从大规模的文本极性分类数据集中学习到可迁移的公共特征,并通过这些公共特征来辅助文本共情预测任务。在这个迁移学习过程中,本文所提方法通过一个对抗学习模块来降低了两个任务间数据集领域分布不同所带来的差异,且通过一个铰链损失模块来降低两个任务间预测标签不同所带来的差异。除此之外,所提方法还设计了一个注意力模块来对公私有特征进行动态加权。最终在三个文本共情预测数据集和四个文本极性分类数据集上进行的实验说明了本文所提的迁移学习方法的有效性。3、本文以电力营业厅为具体场景进行了一定的工程实践工作。具体而言,本文以电力营业厅场景下的智能客服机器人为主体,详细介绍了机器人的各个模块。基于上述各个模块,本文构建了两种不同形态的智能客服机器人:基于线下的实体机器人以及基于线上的web网页对话系统。随后本文对所得机器人进行了相的实验,并对测试结果进行了讨论与分析。
其他文献
教育游戏作为有具体应用目的的严肃游戏的一个分支,已经成为辅助儿童教育的重要手段,它以“寓教于乐,以乐促学”的设计理念丰富了教学途径、创新了授课方式、激发了学习兴趣,从而受到越来越多企业、学校、老师与家长的关注,并且广泛用于儿童的能力锻炼和知识探索中,具有极高的实际应用价值。但是目前儿童教育游戏普遍存在定位不明确、内容同质化、设计较粗糙等问题。因此,在智能化时代背景下,如何运用全新的数字技术手段开发
学位
当前,我国已经顺利完成脱贫攻坚工作,正在紧锣密鼓推进乡村振兴工作。在此背景下,对全国范围脱贫攻坚的成果和经验进行系统梳理和理论总结势在必行。对贫困问题和脱贫机制的梳理总结,一方面有利于防止脱贫之后的返贫,另一方面将有利于下一步乡村振兴的顺利实施。本文即是在此背景下,对云南省梁河县M村的农业产业扶贫项目进行梳理、分析和总结,并希望借此形成对农业产业扶贫这种全国性的扶贫措施的理论反思。M村是精准扶贫工
学位
在过去的20多年中,离散数学和连续数学的研究以多种方式相互影响.例如,Laplace算子在图论和黎曼流形中有着重要的应用.图的谱与黎曼流形的谱之间的类比对谱图理论的发展有着重要的影响.Faber-Krahn定理是图论与黎曼流形之间的另一个类比.对于Rn中体积相同的任意有界区域,谱几何中经典的Faber-Krahn不等式表明球是具有最小第一 Dirichlet特征值的区域,即球具有Faber-Kra
学位
深港通的开通标志着我国A股市场与香港股市间互联互通渠道的进一步完善,是我国资本市场对外开放进程中的一个里程碑事件,对于提升我国A股市场配置效率和助推人民币国际化进程具有重要意义。同时,深港通的开通也让深圳股市与香港股市之间的联系更加紧密,加剧了波动性的传导风险,因此,深港通的开通到底对两地资本市场有何影响,是一个值得探讨的问题。本文使用Diebold和Yilmaz提出的广义溢出指数法,针对深圳和香
学位
随着5G和物联网的发展,云计算模式难以应对网络中产生的大量数据以及对延迟要求更高的新型服务,边缘计算因此应运而生。为了从海量数据中获取有价值的信息,在“边缘智能”技术的驱动下,越来越多深度学习应用被部署到网络边缘。然而,对感知数据进行分析和推理通常是资源密集型任务,而本地计算或卸载全部推理任务到边缘节点将带来大量的计算和通信开销,导致无法容忍的任务响应时间。为解决上述问题,本文对边缘计算下模型推理
学位
开发区设立以来,管委会体制作为开发区运用最广泛的一种管理模式,在开发区成为地区经济增长极的过程中发挥了重要的制度优势。经过三十多年的发展,曾被誉为“小政府、大服务”的管委会模式也积累了诸多体制弊端,而对于管委会体制的创新也存在诸多不同的改革思路与方案。以“市场化”为特点的改革是十八届三中全会以来开发区体制机制的改革思路与重点,是破解开发区管委会体制困境的重要探索。论文基于奥斯本政府再造理论并结合我
学位
物业服务作为房地产行业的衍生品,是现代社区管理不可或缺的重要组成部分。在住宅商品化改革以前,受我国所有制经济政策的影响,物业管理工作基本上由政府部门负责,其作为政府部门的一项行政职权与现在市场经济条件下的物业服务模式完全不同。从上世纪80年代,在公有住房商品化改革的背景下,我国开始探索对住宅物业由政府行政化管理向社会组织在市场经济条件下公平竞争的现代化物业服务模式转变,由于我国物业服务行业的发展历
学位
近几年来,自动文本纠错已经逐渐成为自然语言处理领域中的一个重要研究方向。自动文本纠错旨在通过计算机将一个带有语法错误的句子纠正成对应的正确句子。自动文本纠错技术在文书纠错,教育,数据预处理,语音识别后处理等领域具有广泛的应用。随着算力的大幅提升,深度学习的方法在文本纠错任务中占据了主要地位。在深度学习的帮助下,文本纠错的精度得到了大幅提升。目前主流的深度文本纠错方案分为两种:一种是基于序列到序列架
学位
合肥光源(Hefei Light Source,HLS-Ⅱ)作为面向国内外用户的大科学装置,其科学产出与用户的实验效率和数据处理效率密切相关。目前,HLS-Ⅱ现有的用户服务系统仅仅涉及用户认证、课题申请、专家审批、机时分配等实验流程,而在海量实验数据的管理上,还存在着数据资源分散存储、缺乏数据处理环境、无方便有效的交流共享途径等问题。在调研了国内外大科学装置实验数据管理平台建设现状的基础上,设计并
学位
退役军人是党和国家的宝贵财富,是社会主义现代化建设不可或缺的重要力量。党的十八大以来,习近平总书记高度重视退役军人就业工作,做出了一系列重要论述,国家出台了《关于促进新时代退役军人就业创业工作的意见》等一系列政策规定,为退役军人的就业工作指明了方向。退役士兵作为退役军人群体的重要组成部分,体量大、兵龄短,大多不符合政府安置就业条件,且学识水平和综合能力较退役军官有一定差距,普遍缺乏专业技能,退役后
学位