知识驱动的话语领域分类方法

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:yaoyaoyy1188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于注意力(attention)机制的循环神经网络(recurrentneural network,RNN)将领域分类任务的研究进展带到一个新的水平。同时,为了提高口语语言理解(spokenlanguageunderstanding,SLU)任务的泛化能力,大型的预训练语言模型,如BERT(Bidirectional Encoder Representations from Transformers),被应用于 SLU 的分类任务中。尽管上述研究表明,现有的神经文本分类器在经验上表现良好,但从话语领域理解的角度来看,它们存在以下两点局限性。一方面,这些神经分类器对低频和未见过的实体指称项学习不充分,导致其对应的权值是一个趋近0的数。特别地,在领域分类任务(utterance domain classification,UDC)中,由于口语化的表达,一些话语除了实体指称项之外,缺乏足够的信息词,这种信息损失和模型性能下降更加明显。另一方面,当缺乏知识引导时,实体指称项不能充分表达本身带有的领域标签信息,从而导致有偏的话语表达,降低领域分类的正确率。本文提出了知识驱动的神经话语领域分类框架(knowledge-based neural UDC framework,KNDC),利用高覆盖率的实体指称项及低噪声的领域标签信息来丰富话语表征学习,主要的研究工作如下:(1)提出了一个知识驱动的神经话语领域分类框架,有效地将基于上下文的语义特征和基于知识的语义特征结合在一起,增强神经分类器的对话语的分析理解能力,提高话语领域分类任务的正确率。(2)设计一种新的知识获取策略,综合地考虑了高知识覆盖率和低标签噪声两个方面。具体地,首先利用远监督技术识别话语中的实体指称项,并从知识库中获取实体指称项的标签。接着,构造本地补充性知识库,以保证话语中知识的覆盖率,为神经分类器提供更加全面的领域知识。最后,对远监督和本地知识库带来的标签噪声做降噪处理,以保证话语中知识的质量,从而得到质量较好的知识。(3)设计了一种知识融合机制,分别构造句子级和词级的知识语义特征,并将其分别以粗粒度和细粒度的方式整合到神经分类器中,从不同的层次角度增强话语的表征学习,提升了分类模型的性能。本文选用了中文口语领域分类基准语料SMP-ECDT和英文口语对话分类基准语料MultiWOZ作为实验测评数据集。在数据集上,通过与研究进展的文本分类模型进行实验对比,本文提出的KNDC框架在两个基准数据集的实验上取得了较高的正确率,特别对于携带低频和未见过的实体指称项的话语,以及知识密集型领域,KNDC的提升效果会更加突出。相比于没有知识引导的神经分类器,本文所提出的知识驱动的话语领域分类模型能更好的区分任务型领域和闲聊领域之间的边界,较研究进展方法具有显著的优势。同时,本文还进行了一系列的消融实验,来进一步探索知识对神经分类器的影响。
其他文献
随着Web2.0的到来,Web服务做为一种新生的软件架构模式,也越来越受到关注。然而,用户要在海量服务中检索到符合自己需求的服务是困难的。因此Web服务聚类便成了该领域的一个热门研究方向,其能促进服务发现,也有利于后续的各种工作。研究主要集中在对主题模型进行改造。然而,主题模型缺乏考虑词序关系,导致丢失上下文语义信息,并且容易造成语义鸿沟问题。再者,主题模型受预处理影响很大,这要求开发人员必须花大
学位
在云计算、分布式处理等场合,发送方通常因计算资源有限或无利益驱动,仅将数据进行加密而不压缩。云端接收到加密数据后,为了提高存储空间及带宽的利用率,需要在没有解密密钥的情况下对加密数据进行压缩。接收端则需要结合发送端提供的解密密钥和云端的压缩算法对接收到的加密压缩数据进行联合解压缩及解密。这就产生了如何有效地对加密数据进行压缩及重构的研究问题。本文侧重于研究加密图像的有损压缩与重构问题。鉴于云端无法
学位
规模化、标准化、系统化、智能化、精准化的养殖与管理方式是当前畜牧业、养殖业中最具实用性与前瞻性的发展趋势。近年来在奶牛养殖业中已经逐渐形成高度规模化、标准化的形式,但是在智能化和精准化的养殖与管理方面仍处于初步阶段,其原因在于基础任务奶牛的精准定位与识别仍处于研究阶段。传统的识别方法、电子设备方法与生物特征方法无法满足这个基础任务的需求,因此本文以奶牛牛脸图像数据为对象,采用重识别方法,构建深度学
学位
水稻是我国广大人民最主要的粮食来源之一。近年来,由于环境污染加剧,我国人均耕地面积持续减少,导致水稻产量增加放缓,如何培育优质品种水稻,挖掘水稻抗病虫害的最大潜力,提高单位面积水稻产量,成为当下水稻研究的热门领域。由于水稻表型受环境因素、遗传基因的影响,因此表型是优质水稻的重要评估指标,其中水稻穗数、谷粒饱满程度是关乎水稻产量和质量的最直接依据之一。在水稻育种研究中,稻穗生长发育的各个时期都需要测
学位
火灾不仅让人类生命财产安全遭受巨大威胁,而且对生态环境造成重大毁坏。在火灾初期,最明显且最具区分性的特征是火焰,如何通过监控视频快速检测出火焰是火灾预防中重点研究的课题。针对当前火灾检测算法的存在的问题,本文基于视频图像数据分别利用浅层机器学习和卷积神经网络对火灾检测算法做了研究,本文工作内容如下:(1)基于火灾检测算法的研究需要,本文从互联网下载整理了火灾视频图像数据,并且自行建立火焰的燃烧平台
学位
粒子群优化算法作为一种群体智能算法,因其具有参数设置简单、收敛速度快等特点,一开始便广泛应用于单目标优化领域,随后研究学者发现其应用效果显著,便将它扩展至多目标领域。虽然,经实验证明粒子群优化算法能够较好地解决多目标及高维多目标优化问题,但仍存在许多不足,并不能完全满足社会的高需求。通过文献阅读与实验论证发现,常见的粒子群算法在处理多目标问题中,主要面临以下两方面问题:(1)如何选择出领导者来引导
学位
TAL效应物transcription activator-like effectors(TALE)是一类在植物病原黄单胞菌中发现的天然的DNA结合蛋白,它具有与目标DNA序列特异性结合的能力。TAL效应物的靶标直接反映了病原菌的致病性或无毒性,因而寻找TAL效应物的靶标直接影响到对寄主植物感病基因、抗病基因的鉴定,并有助于揭示病原菌和寄主长时间相互作用、共同进化的过程和生物信息研究。开展TAL效
学位
随着数字信息化的发展,计算机理论和硬件技术的日益成熟,计算机视觉成为深度学习中落地最广泛的领域之一,它主要研究如何使用计算机处理采集到的图像视频等信息。对于从自然场景下采集到的图像经常受到包括雨、雪、雾、霾等恶劣天气的影响,使得图像信息丢失,从而限制视觉算法的性能发挥。雨天是自然界中最常见的天气之一,单幅图像去雨算法的研究具有一定的实际意义。传统方法主要针对有雨图进行建模,采用数学优化的思想对雨线
学位
目的:对某社区医院口腔科2017—2021年中药潜在用药风险进行点评,并提出管理对策。方法:以随机分层抽样的方法对2017—2021年某社区医院口腔科进行中药处方采样,以年份为分层标准,每年抽取中药处方225张,共计纳入符合标准的处方1 100张。分类录入某社区医院口腔科2017—2021年1 100张中药处方的基本情况,包括各年份中药常用药及使用频率,对中药进行组分分析,对处方进行点评,判断是否
期刊
目的:调查2019—2021年某院口腔科中成药应用现状,并评价开展医院药事管理联合药学服务干预后的效果。方法:以2019年1月—2020年6月某院口腔科未施行医院药事管理联合药学服务干预时口腔科中成药用药状况,设为实施前;以2020年7月—2021年12月施行医院药事管理联合药学服务干预后口腔科中成药用药状况,设为实施后。抽取实施前后某院口腔科中成药处方各800张、患者各100例开展研究。调查20
期刊