多任务人机对话系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sfsafd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言理解作为任务型人机对话系统中一个重要的组成部分,一般包含领域识别、意图识别和语义标注三个部分,其中领域识别作为自然语言理解的先导任务,是后续任务的基础,其结果影响着对话的结果与质量,是自然语言理解的重要任务。在实际任务型人机对话系统的应用中,领域识别需要识别出当前句子的所属领域,再由接下来的意图识别和槽填充任务识别并解析出该领域下的句子意图和槽值信息。现实对话中由于领域众多且无关联参考信息,往往加大了输入单句进行领域识别的分类难度。此外,多领域对话任务中各领域间的数据不平衡问题,也会严重影响到领域分类的结果。因此,对句子进行有效识别并分类成为了对话中重点关注的问题。传统的研究大多在关注于单句的分类结果,较少利用对话上文的有效信息辅助分类。本文结合实际需求,对上述已有相关研究的问题进行充分调研的基础上展开研究工作,具体内容包括:提出了一种基于多任务学习的领域识别模型。模型为当前句子的领域识别引入上文信息,构建基于当前句子和上文信息的领域识别器,随着上文信息窗口的变化,可以构建多个不同的领域识别器,将这些识别器进行联合训练。实验结果表明,该模型在对话数据集的评测上得到了更好的领域识别效果。同时对领域识别时不同领域训练数据不平衡的问题进行了分析和探索,实现了多种处理不平衡数据的方法,包括过采样方法、代价敏感学习方法等,并进行了最优性能的探索实验。实现了一个多业务售后客服人机对话系统。通过与企业产品和客服部门进行的深入交流,完成了系统的需求分析,在将本文上述技术融入到系统概要设计和详细设计的基础上,进行了系统的开发。对系统的功能评测表明,该系统能够成功识别所输入句子的领域并进行后续对话,返回正确结果。在企业实际应用中取得了较好的对话性能和体验。
其他文献
多模态数据是从多个来源或特征子集获得的数据。例如,一个人的身份可以通过从字迹、指纹、面部、眼睛虹膜等多个来源获得的数据进行识别,而一张图像可以用其颜色和纹理特征来表示。大数据时代的来临,对所有数据进行标注是非常困难的,而聚类算法可以根据样本之间的相似性关系对其自动分组,所以,近年来针对多模态数据的聚类算法得到了越来越多的关注。多模态聚类的关键在于探索各模态数据间的共享信息,传统的多模态聚类算法只能
自从现代通信技术诞生以来,如何以更加低廉的代价(信号功率、信号带宽、传输时延等)来达到更加可靠的通信一直是信息技术领域的核心关键,而无线通信系统中最核心的问题就是信道编码技术。基于信道极化理论诞生的极化码(Polar Code)是在通信领域内首次可以被严格证明达到香农信道容量的信道编码方法,其纠错性能也优于Turbo码、LDPC码等译码方法。另一方面,高校与科研院所在进行通信系统研究时通常选择利用
随着信息科学技术的发展,人们越来越倾向于使用计算机作为信息自动化处理工具,这种方式不仅可以节省人力和时间,而且可以有效地减少人为操作错误。实体资料信息化是计算机信息自动化处理的一个重要的应用领域,早期由于技术限制很多资料都是以纸质的方式记录,存储成本高、存储时效有限而且整理检索的成本也很高。教育领域是实体资料信息化的一个主要分支,教学过程中考试是一种有效的教学评估手段,试卷信息化不仅有助于试卷电子
令G是一个连通的简单图.图G的一个边染色c是将一些颜色分配到图G的边上,而G的一个边赋权w是将一些权重分配到图G的边上.边染色图G上的一条路、一条迹、一个圈或者一条闭迹,记
目的观察黄芪汤能否明显改善气阴两虚型糖尿病肾病Ⅳ期患者的中医证候积分和临床生化水平,以及对免疫相关指标和血清内脂素visfatin水平的影响,明确黄芪汤治疗DN的临床疗效,初步阐述其可能的作用机制,并评估黄芪汤的安全性。方法筛选我院门诊及病房诊断为气阴两虚型糖尿病肾病Ⅳ期的患者70例,纳入研究的70例受试患者通过双盲随机的方式被分为对照组和实验组,在常规西药干预基础上,对照组(n=35)予加用黄芪
随着互联网技术的日益成熟、用户规模的扩大以及需求的增加,软件数量不断增多,功能结构也日趋复杂,对其更便利、更可靠的高需求使得软件维护的难度也在不断增强。然而长时间持续运行的软件系统因老化现象的存在,必然导致性能衰退下降,甚至可能造成系统崩溃,严重威胁和制约着系统的高可靠性和可用性,易造成无法估量的损失。尽管通过抗衰操作可消除软件老化带来的不良影响,然而何时实施抗衰操作是一个值得探究的问题。再生过于
5G虽然已经进入商用阶段,但目前部署的网络都是成本较高的宏蜂窝基站,而未来5G的高速率、广覆盖必将依赖小基站。一体化小基站在5G阶段受到了巨大的挑战,基于集中基带单元(Base Band Unit,BBU)、射频拉远单元(Radio Remote Unit,RRU)的云接入网(Cloud Radio Access Network,C-RAN)必将得到越来越广泛的应用。前传通道是C-RAN架构中连接
超级电容器作为一种新型储能器件,具备高功率密度的特点,但其低能量密度限制了广泛应用。通过优化材料成分和合成工艺来调控钴酸镍电极材料的纳米尺度的形貌,利用SEM、XRD和电化学工作站对材料的微观形貌、相组成和电化学性能进行表征测试,进而揭示电极材料微观形貌和电化学性能的内在联系。研究结果表明:通过研究反应原材料、保温时间、加热温度、原料浓度和尿素用量对合成材料的微观形貌和电化学性能的影响,对反应材料
民族公印是古代玺印中特殊的一类,这类玺印一般由中央王朝颁赐给周边的民族,是当时民族关系的重要见证。这类玺印在造型和内容上都别具一格,有着不同于中央公印系统的形制。这类玺印目前已经有了一定数量的积累,学者们对这类玺印已经有了一定的研究成果,但还缺失系统的整理,目前对其具体造型含义和使用制度认识不足。因此本文在收集整理已知民族公印的基础上对此类玺印的印纽形制、颁赐制度、使用方式和鉴定特征做出初步的探索
寻找多个序列的所有最长公共子序列称为多序列最长公共子序列(MLCS)问题。MLCS问题是序列挖掘中的一个关键问题,该问题在数据挖掘、模式识别、生物信息学等领域都具有广泛的应用。随着序列的个数和长度的增加,MLCS问题将是一个非常具有挑战性的问题。到目前为止,还没有一种有效的精确算法(即该算法可以找到所有最长的公共子序列)可以解决大规模多序列的MLCS问题。当前求解MLCS问题的最佳性能算法(基于支