具有层次结构标签的对话文本分类问题研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:yokuchan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对话文本分类是一种重要的有监督文本分类问题,即对给定的对话文本进行分类。目前这类问题在社会和企业界中被广泛应用,如客户来电原因分类、在线医疗自动分诊、智能语音助手的用户意图分类等。因此,对话文本分类问题也得到了广泛关注,产生了许多研究成果。随着社会发展,人们的需求越来越高,任务处理也日益趋于精细化,对话文本分类需要更加精细化的分类,需要处理标签具有结构的对话文本分类问题。同时也产生了许多新挑战,如数据规模大、层级标签之间和层内标签之间存在依赖关系、语料标签的长尾化严重等问题。目前相关研究成果还比较少,本论文将深入研究此类问题。本文的主要研究工作和创新点主要包括以下三个方面:1.建立了一种层次双向自注意力网络模型解决对话文本分类问题。该模型可以获得句子中词与词之间、对话前后句子之间的语义关系信息。利用该模型可以有效应对对话文本口语化问题。实验表明,该模型在对话文本分类任务中能够获得提升。相比其他四个对比实验,层次双向自注意力网络模型的Macro-F1平均提高4.42%。2.构建了一种基于MRT(Minimum Risk Training)的层次文本分类方法。该方法针对标签之间的极端不平衡性以及实际任务评价指标需求(如F1值),利用MRT将不连续的评价指标直接考虑进模型训练目标,并同时优化MRT和交叉熵训练目标。实验结果显示,该模型可以提高层次分类模型性能。3.构建了一种基于EI(Exclusive&Independent)tree的层次文本分类方法。该方法根据标签路径信息和依赖关系得到路径损失,通过优化路径损失和分类损失组合对文本进行层次分类。在客服对话文本数据集上实验结果显示,该方法可以提升模型Macro-F1。
其他文献
手写体数字识别是目前字符识别的研究热点,利用计算机自动处理数字信息的技术已经成为信息化领域的重要研究内容。在现代教学过程中,学生试卷分数的自动识别与存储是学校教学管理规范化建设的重要内容。试卷分数的自动识别能够有效减轻教师的工作量,提高工作效率。本文针对试卷分数的自动识别技术进行了研究,主要包括试卷图像处理、手写体数字识别及试卷分数自动识别系统设计三个方面。1.试卷图像处理是对试卷分数进行自动识别
学位
随着现代信息技术和控制技术的发展,反舰导弹以其多变的机动形式和强劲的突防能力给各国的海上军事设备带来巨大的威胁,因此研究高精度的滤波跟踪算法,实时的对反舰导弹进行监控跟踪,对海上军事设备反导能力的提高有着重要的意义。本文是以交互多模型算法(Interacting Multiple Model,IMM)为基础进行研究,主要的贡献分为以下几个方面:首先,研究了几种常用的目标跟踪模型和非线性滤波算法。在
移动测量系统的核心是GNSS/INS组合导航技术,即利用GNSS导航结果精度高和INS导航结果不受外界影响的特点,通过不同的组合方式为用户提供精度更优的位置、速度、姿态信息。近年来,移动测量系统得到迅速的发展,尤其表现在车载移动测量系统方面。然而传统的车载GNSS/INS测量系统通常搭载一个GNSS接收机,当载体长时间处于直线运动状态时,会存在定姿信息可观测性不强的问题,尤其是航向信息会随着时间而
物流是基于信息的,而信息决定了物流的运输策略和管理模式。青岛保税港区是一个具备一定规模和综合服务功能的物流聚集地,对加强本地区各行业之间的联系起着重要作用。仓储物流信息管理系统是区域内物流、信息流的良好载体,能够整合区域内物流产业,促进行业信息化水平的提升,为港区内企业提供信息服务,其信息服务内容和信息服务质量将影响该地区物流业务的效率。本文系统地阐述了仓储物流信息管理系统和绩效评价理论的概念,详
钢带热连轧中活套的驱动靠液压系统来完成,液压驱动的使用在国内的应用时间不长,在液压系统的设计过程中,往往只考虑单个液压元件的静态指标,而液压系统由控制元件、执行元件
2009年,创业板在我国正式成立,为我国创新创业、高科技企业的成长带来了新发展机遇的同时,也带来了诸多挑战。目前,创业板上市公司的成长性面临发展过程中的资金短缺等问题,其主要原因离不开融资结构的影响。那么融资结构对于企业成长性的影响到底如何?本文将展开进一步的探讨,使创业板能够顺应当前经济发展态势,对理论和实践具有较强的意义。本文基于企业成长性、融资结构相关理论的基础上,通过对国内外文献进行回顾,
本论文主要致力于芴类有机羧酸配位化合物的设计合成,结构及性能研究。有机芴类化合物作为一类具有刚性平面联苯结构的材料,由于具有较宽的带隙、稳定的共轭链长、良好的电荷传输能力、较高光热稳定性、高固态荧光量子效率等优点,在半导体领域备受关注。然而,对含有芴类羧酸有机配体的配位化合物研究相对较少,我们希望拓宽这一领域的研究。基于以上思路,本论文选取9-芴酮-4-羧酸配体(HFDC),利用水热与溶液扩散法,
学位
硝酸法生产氧化铁颜料工艺过程涉及硝酸亚铁制备、氧化铁晶种合成和硝酸亚铁二步氧化等反应过程。这三步反应均会产生含氮氧化物(NOx)废气。而且,硝酸亚铁二步氧化过程中的硝酸亚铁分解反应还存在反应失控风险,一旦发生反应失控,短时间内将从反应器内释放出大量高浓度的NOx废气。废气处理单元的净化能力通常根据正常工况下的废气流量和浓度进行设计,对于反应失控工况下废气中的NOx不能完全净化,进而导致排气筒冒黄烟