【摘 要】
:
人机对话系统主要由语音识别(Automatic Speech Recognition,ASR)、口语理解(Spoken Language Understanding,SLU)、对话管理(Dialog Management,DM)、对话生成[1](Dialogue Generation,DG)和语音合成[2](Text to Speech,TTS)五部分组成,口语理解在人机对话过程中起着极其重要的作
论文部分内容阅读
人机对话系统主要由语音识别(Automatic Speech Recognition,ASR)、口语理解(Spoken Language Understanding,SLU)、对话管理(Dialog Management,DM)、对话生成[1](Dialogue Generation,DG)和语音合成[2](Text to Speech,TTS)五部分组成,口语理解在人机对话过程中起着极其重要的作用,而口语理解又分为领域识别、意图识别和语义槽填充三部分,意图识别作为口语理解的子模块,也是人机对话的关键。目前主流的意图识别方式主要有基于规则模型的意图识别方法、基于传统机器学习方法、基于深度学习方法以及融合规则和深度学习的意图识别方法。广义的意图识别很难实现,因此本文主要研究限定人机对话领域、限定意图类别的意图识别系统。本文将意图识别问题转换为一般的多分类问题,并结合人机对话领域中的短文本特性和意图的动词性特性进一步优化分类模型,以期达到较好的意图识别性能。本文主要从支持向量机、Fast Text算法、卷积神经网络、循环神经网络四个方面研究意图识别问题,并搭建基于web的意图识别系统,方便进行意图识别的测试与结果展示。本文采用snips语音平台官方开源的英文语料数据集,该数据集标注了共七个意图类别,语料来源为人机对话过程中的用户语句。文本预处理的工作主要有删除标点和特殊符号、分词、统一转小写、词干提取、词形还原等操作,然后采用了基于信息熵的特征选择算法进行适当的特征降维。本文的传统机器学习算法主要选用支持向量机(Support Vector Machine,SVM),数据集转换为频率-逆文档频率矩阵作为SVM模型的输入,然后采用网格搜索(Grid Search)训练模型并寻找最佳的参数组合;Fast Text是美国Face Book公司推出的快速文本分类算法,采用最简单的三层神经网络模型训练意图识别模型,能够取得不逊于深度学习方法的成绩。实验采用词袋模型和N-gram模型提取文本特征作为模型的输入,且由于十分简单的网络结构只需要训练一组词向量权重矩阵;本文深度学习方法采用经典的卷积神经网络和循环神经网络训练意图识别模型。在卷积神经网络模型中,采用大型数据集预训练词向量作为输入,结合短文本的特征调整卷积核大小、卷积核数量、学习率等超参数组合,并使用交叉熵损失函数和随机梯度下降算法得到了综合性能较好的模型;在循环神经网络模型中,主要目的在于测试短文本的时间序列特征对意图识别的参与比重,结果显示相对卷积神经网络模型平均准确率仅提高了0.005左右,分析原因为短文本中时间序列特征所占的比重仅与N-gram特征、大小为2的卷积核提取的特征相当。
其他文献
阿尔茨海默病(Alzheimer’s disease,AD)是一种进行性神经退行性疾病,是痴呆最常见的类型。尽管发病机制尚未阐明,已经明确脑内β淀粉样蛋白(Aβ)的聚集、沉积在AD病理进程中
现实生活中存在大量的多目标优化问题,其优化目标之间往往是相互冲突、相互制约的,找不到唯一的解能同时使得所有目标取得最优。近年来,多目标优化领域得到快速发展,在求解无约束多目标优化问题时,经典的基于目标分解方法对Pareto前沿面形状较为敏感,在不知道Pareto前沿形状的前提下,很难去近似一组均匀分布的Pareto最优解,所以要尽可能地提高解集的多样性。在许多实际工程中,把多个Pareto解集对应
语言规划是国家社会规划和社会政策的重要组成部分,对一个国家的语言生活、民族平等、民族团结、民族繁荣乃至全社会的安定团结有着重要的影响。语言规划恰当评估和影响着现
在国家政府的大力支持下,中国物联网蓬勃发展,各行各业也对其提出了更高要求。在决策科学的帮助下,物联网的应用价值得以实现。《更明智的选择—物联网和决策科学的交汇》一书主要介绍物联网以及如何通过决策科学解决实际的物联网问题,内容详尽、可靠,具有翻译价值和实际意义。因此,本文旨在通过此次翻译实践,实现科技信息的准确传递,以期对物联网方面感兴趣和该领域的专业人员提供一定的参考。本实践报告选取《更明智的选择
随着我国经济社会的发展,人们对学生的综合素质水平能力也在不断的提高着。对于初中英语课程的教学而言,基于深度学习来对阅读教学进行改进不仅可以增加学生对英语阅读课程的
温室气体排放导致的气候变暖以及极端降水事件的频发已成为制约植物生长和发育的主要气候因素。温度和水分作为植物生长必不可少的环境因子,两者的改变将对药用植物生长发育、光合作用、物质代谢、药用成分积累等生理过程产生一系列的影响。钩藤(Uncaria rhynchophylla(Miq.)Miq.ex Havil.)为我国重要药用植物资源,在治疗抑郁症、高血压等疾病方面有显著的临床疗效。本研究以钩藤为试验
羊踯躅(Rhododendron molle)又称黄杜鹃、闹羊花等,为杜鹃花科杜鹃花属植物。羊踯躅是落叶灌木,高0.5-2米,羊踯躅可治疗风湿性关节炎、跌打损伤。其分布于江苏、安徽、浙江、江西、福建、河南、湖北、湖南、广东、广西、四川、贵州和云南。羊踯躅的花、果实和根等部位含有马醉木毒素、闹羊花毒素、和andromedotoxin等成分,误食令人呕吐、腹泻或痉挛。医药上羊踯躅被用于麻醉剂和镇痛药,
目的研究敲除及敲减TLR2基因对炎症相关结直肠癌及散发性结直肠癌增殖的影响。方法将12只C57BL/6J野生型小鼠(WT)及12只TLR2基因敲除小鼠(TLR2-/-)用DMH-DSS快速诱导CAC模型,分为正常野生鼠对照组(normol control,NC),TLR2基因敲除鼠对照组(Knockout control,KC)正常野生鼠肿瘤造模组(normol tumor,NT)TLR2基因敲除
作为地球上最大的碳储存库和地球上最大的活跃碳库,海洋对于全球碳循环具有重要意义,因此我们需要发展碳汇渔业,提高海洋碳汇能力。本文通过对祥云湾海洋牧场投礁区与非投礁区碳汇能力进行调查分析,为指导海洋牧场的建设,实现海洋碳汇能力的提升提供依据。本研究内容为2019~2020年海洋牧场中投礁区与非投礁区的生物、水体、沉积三个方面的碳汇功能研究。其中生物碳汇包括渔业资源调查及其固碳量估算、人工鱼礁礁体上附
2014年召开的全国大学生村官工作座谈会上对大学生村官工作和选调生工作做了重要指示,会议强调要将二者的工作进行有效衔接,实现有效互动,形成良性机制。同时,会议强调不仅相关政策需要不断完善,更要规范其操作流程和操作办法。选调生从选聘方式、培养手段上都有了一些新变化、新发展,选调生这个群体进入新岗位后势必面临着思想上、意识上的新的适应期。因此,对选调生开展思想政治教育已成为各级组织人事部门工作中的重要