基于标签知识的极限多标签文本分类研究

来源 :天津科技大学 | 被引量 : 0次 | 上传用户:himiro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签文本分类是自然语言处理领域的重要任务之一。现实世界,文本数据生产速度快、体量大,多标签文本分类的类标签数量逐渐以千、万为单位。具有千个以上类标签的多标签文本分类任务,被称为极限多标签文本分类(Extreme Multi-label Text Classification,XMTC)任务。XMTC任务的关键问题为长尾问题。标签知识作为任务中重要的外部知识,是缓解长尾问题的潜在要素。现有研究侧重利用标签簇结构知识,即通过头部标签和尾部标签在同一标签簇中的共现来平衡两者的预测表现,从而缓解长尾问题。但现有研究固化了标签簇的结构,对标签知识的利用与动态变化且丰富的真实语义场景具有不一致性,未能达到理想分类效果。结合现有研究在解决XMTC任务长尾问题上的不足以及标签知识的重要作用,本文对利用标签知识解决XMTC任务长尾问题进行探索。研究如下。1)针对现有研究利用标签簇结构知识缓解任务长尾问题的局限性的问题,提出基于标签知识的XMTC提升策略。策略为文本建模生成引导知识,通过引导知识优化文本特征表示、提升尾部标签预测效果,缓解长尾问题。实验结果证明,提升策略(引导知识策略)能够有效提升现有XMTC方法在尾部标签和整体标签上的预测效果。2)针对1)中引入引导知识策略的方法模型结构简单,网络表达、特征抽取能力不足的问题,提出基于引导知识策略的XMTC算法TReader XML。算法设计双流协作网络,将引导知识与文本特征嵌入映射至共享语义空间中进行特征交互,提升引导知识对文本的类别语义引导效果和标签预测表现。实验结果证明,TReader XML在对整体标签和尾部标签的预测中达到了领域优秀水平。3)针对目前学术界XMTC成果落地工业界过程中的成本、风险问题,基于1)和2)的研究成果,提出一套支持工业级应用的基于标签知识的XMTC算法框架LKRoad。框架定义和规范了任务数据标准,实现了适用于工业场景的XMTC数据分析、预处理、基于标签知识的分类算法、算法评估等工具。实验结果证明了框架设计的合理性,以及其对于学术方法工业落地的重要价值。
其他文献
大丽轮枝菌(Verticillium dahliae)由植物根部进入宿主并在植物维管束中定殖。病原真菌分泌的小分子半胱氨酸蛋白(Small secreted cysteine proteins,SCPs)是一类常见的效应因子,能参与寄主互作并抑制寄主免疫反应。本研究采用寄主诱导基因沉默技术(Host-induced gene silencing)对大丽轮枝菌Vd991基因组学分析可编码的7个效应蛋
学位
五加属植物(Eleutherococcus)在隶属于五加科(Acanthopanaceae)的一支,系小乔木或落叶灌木。目前,全世界范围内发现了37种五加属植物,广泛分布于中国、日本、韩国、俄罗斯东部等东亚东北亚各地。近年来,印度、不丹、蒙古、尼泊尔、菲律宾、泰国和越南等东南亚国家及地区也发现了五加属植物。五加属植物普遍具有较高的药用价值,如抗疲劳、抗炎、抗应激、抗溃疡和改善心血管功能。迄今为止,
学位
钢筋混凝土结构,在各类建筑中有广泛的应用,但依然存在尚待研究的问题。地震灾害表明,人们对结构动力弹塑性响应的认识还不够深入,分析手段粗糙、计算流程复杂,造成工程设计难以精确把握结构的失效模式。据此,寻求高效便捷的钢筋混凝土结构动力弹塑性简化分析方法,服务工程设计,具有重要的理论意义和实用价值。本文开展相关工作,主要研究内容如下。推导钢筋混凝土梁、柱构件屈服弯矩,使用截面纤维有限元软件XTRACT进
学位
近年来,随着城市供水管网规模的不断扩大,供水管网的智能监控与管理已经成为了一种大趋势。为了能对供水管网系统进行整体上的管理,供水管网的实时水力模型被越来越广泛地利用到实际生产中,而管网模型的校核需要依托管网中传感器提供的监测数据。然而,受限于硬件性能、电力供应等因素,已有传感器系统的低上传频率无法满足高频率水力模型校核的需求。最直接的方法是新增大量的新式传感器,但这种做法忽略了已有传感器,是不经济
学位
灰树花(Grifola frondosa)又名贝叶多孔菌、舞茸等,是极具开发前景的高档珍稀食/药用真菌,灰树花多糖能抑制肿瘤细胞,激活宿主免疫系统,具有抗病毒、抗辐射、保护肝脏、调节血脂血压等作用。本研究以转录组测序数据为参考,初步分析灰树花基因数据及功能,以糖代谢功能为筛选依据锚定RNAi(RNA inference)目的基因(HXT2基因),利用生物信息学方法对灰树花HXT2基因功能进行预测和
学位
架空输电线路随着电力事业的飞速发展,正朝着特高压、特大跨、高耸的方向发展,土体、基础和输电塔的相互作用越来越不容忽视。本文以某385m高的特大跨越钢管塔为研究对象,通过理论分析、有限元计算和气弹模型风洞试验等方法研究考虑桩-土-结构相互作用的输电塔风致响应。具体内容如下:(1)为研究桩-土相互作用,建立单桩-土实体单元模型和单桩-土弹簧单元模型,考虑三种单桩-土弹簧单元模拟方法,并与某桩基计算软件
学位
可再生能源的大规模应用是实现建筑领域碳达峰和碳中和目标的重要途径,而能源柔性是保障供需两侧协同调度、实现供需平衡的基础。高校校园的能源柔性对智慧电网优化调度具有重要影响,其中集中热水系统是校园需求侧能源柔性的重要来源。揭示集中热水系统能源柔性特征及影响因素对校园能源系统优化设计及运行、及智慧电网运行管理具有重要意义。而集中热水系统由于建模以及运行规则的复杂性,给研究带来了极大挑战。此外,随着人工智
学位
随着集成电路设计和制造的日益发展,攻击者对集成电路插入硬件木马进行恶意修改的问题引起硬件安全研究人员广泛的关注。在硬件木马检测领域产生了诸多方法,其中基于侧信道分析是当前最主流的方法,该方法基于硬件木马功率消耗的差异、电磁辐射的变化或传播延迟等进行分析,具有效率高,非接触式和高精度等优点,在实践中被广泛使用。然而该方法也存在漏检率较高、检测依赖母本芯片等方面的不足。基于此,本文中提出了一种利用侧信
学位
行人重识别是一个从多个非重叠监控摄像头中匹配被查询人的检索任务,在安防、监控和侦查等方面有着重要的应用。行人重识别一般包括特征提取和特征匹配两个步骤。一般的行人重识别方法基于行人图像进行识别,而行人图像中存在分辨率低、光照差异、角度变换以及遮挡严重等问题,导致难以提取有效的特征。深度神经网络可以有效的提取行人图像的深层次特征,得到更具判别性和鲁棒性的特征。同时,研究发现行人文本属性可以在行人图像的
学位
悬浮隧道(Submerged Floating Tunnel,简称“SFT”)将是一种新型水下交通结构物,其所处的环境条件与如今的桥梁、隧道等交通结构均不相同。对悬浮隧道的研究需要建立准确的分析模型,然而目前的理论研究大多基于弹性地基梁模型或只对单跨结构进行分析。本文在已有研究的基础上进一步完善了平面理论分析模型,逐步建立了任意边界的悬浮隧道多节段离散弹性支撑力学模型,并对其在不同荷载作用下的振动
学位