长尾分布下的多标签文本分类方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:sunhan88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术的不断发展,新闻网站和即时通讯等在线数据快速增长,多样性数据不断产生。海量信息触手可及,如何设计有效的分类系统来自动处理这些内容成为了亟待解决的问题。在传统的分类方法中,待分类的样本只属于一个标签,即多分类学习。但是现实生活中很多对象是具有多个标签的,例如一篇学术论文很可能既属于“数据挖掘”,又属于“机器学习”。多标签文本分类技术在现实生活中被广泛应用,例如,主题识别、新闻分类、问答系统等,但也面临了诸多挑战。数据长尾分布导致的尾标签实例不足,无法准确分类的问题,一直是限制多标签分类系统性能的主要原因。尾标签的训练实例不足会导致尾标签语义获取困难,从而无法从文档中捕获到与尾标签相关的信息。其次,尾标签和头标签数据分布不均衡,训练实例差距较大,基于头标签能学习到准确的分类器,而尾标签却无法训练得到准确的分类器。此外尾标签训练实例不足会导致尾标签类内多样性不足,使得学习的子空间扭曲。因此本文针对长尾多标签文本数据场景下存在的尾标签判别信息难以提取、数据分布不均衡,尾标签样本数量不足等问题设计相关算法,主要贡献如下:1.标签引导的文本注意力建模方法:在长尾分布下的多标签文本分类中,从复杂的语义中为尾标签提取具有判别性的信息进行分类是具有挑战性的任务。本文提出了标签引导的文本注意力建模方法,通过标签语义探索标签相关性的同时,提取标签关注的特征信息,从而有效解决多标签分类问题。该网络依赖于文档的内容特征和对应的标签信息,通过使用标签语义注意力机制和自注意力机制获得文档中每个单词的权重,充分考虑每个单词对当前标签的重要性得分。得分与单词融合得到每个标签在当前文档下标签特定的文档表示和自注意力文档表示,最后设计自适应融合层对上述两种表示进行融合,获得最终标签特定的文档表示。在4个真实的多标签文本数据上对所提出的算法进行了全面的评估,实验结果证明了提出的方法要优于其他对比算法,并且有效地提升了尾标签的分类性能。2.标签感知的文本节点分类方法:对于半监督长尾分布下的多标签图节点分类问题,由于其标记训练实例有限,且类别的训练实例数量相差巨大,本文通过充分探索图的拓扑结构和标签的语义信息,设计了一种归纳式标签感知的文本节点分类算法,它通过数据的拓扑结构从邻居节点中聚合出关于每个类别的内容信息,帮助目标节点进行特征扩充,从而提升分类性能。所提出的算法在2个真实的半监督多标签图数据DBLP和Delve-M上进行了充分的实验,实验结果验证了标签语义引导策略的有效性。3.长尾多标签文本原型迁移学习方法:长尾分布的本质问题是头标签训练实例较多,而尾标签训练实例不足导致的。本节从数据不均衡的内部探索,解决尾标签和头标签训练实例不均衡带来的问题。具体来说,本文提出长尾多标签文本原型迁移学习方法,基于大量的训练实例学习头标签的分类器参数,同时让头标签模拟尾标签的情况,即few-shot下的情况,学习到头标签few-shot的类原型。设计迁移学习器能够有效的获得many-shot分类器参数和few-shot类原型之间的元知识。将头标签中捕获的元知识迁移到只有few-shot类原型的尾标签中,获得尾标签在many-shot上的分类器参数,从而提升尾标签的分类性能。使用3个长尾多标签文本数据对提出的算法进行实验验证,从不同角度展现了模型的有效性,尤其是在提升尾部标签的分类性能上。4.长尾多标签文本关系迁移学习方法:由于尾标签实例有限,类内多样性不足,无法学习到准确的子空间。本文将捕获头标签实例对之间的关系,用于尾标签的数据生成,从而增大尾标签的类内多样性。具体来说,本文提出了长尾多标签文本关系迁移学习方法。它有两个主要模块。第一个模块是相关性收集器,它基于头标签获得足够的实例对关系。第二个模块被称为尾标签实例生成器,它将相关性传输到尾标签,为其生成新实例。为了保证生成实例的质量,本文还设计了一致性约束和多样性约束,其中一致性包括生成一致性和方差一致性,生成一致性保证生成的实例和该类的类原型接近,避免生成噪音点,方差一致性则保证头标签和尾标签的分布一致。多样性是为了有效扩大尾标签的类内多样性,避免生成冗余的点。最后,在多个长尾多标签数据集上验证了实例关系迁移网络的有效性。
其他文献
配电网的灵活、安全与可靠的运行具有重要意义。与现有的数据采集和监控(Supervisory Control And Data Acquisition,SCADA)系统相比,同步相量测量单元(Phasor Measurement Unit,PMU)为配电网提供了快速、精确与可靠的相量量测数据,可极大提升配电网能观性水平。但由于技术和经济的限制,配电网在短时间内难以实现全部节点装设PMU装置,导致不同
学位
基于以太网的列车通信网络(Ethernet-based Train Communication Network,ETCN)具有速率高、开放性强等优点,是新一代列车的首选车载控制网络。然而,在列车内外的信息交互途径越来越多、交互量越来越大的背景下,ETCN的应用降低了车载网络与外部网络的信息交互门槛,打破了传统车载网络因相对封闭而产生的“网络安全壁垒”,增加了车载网络受到网络攻击的潜在风险、给其网络
学位
随着核能技术的不断发展与利用,大量高放固体废物随之而生。对高放废物进行深地质处置是目前全世界公认的最具潜力、最有希望投入应用的处置方案。在高放废物处置库的设计中,废物罐周围的缓冲层由高压实的膨润土砌块堆砌组成,在施工过程中必然会形成施工接缝,而施工接缝成为了缓冲/回填材料潜在的水力缺陷与强度薄弱部位。处置库运行期间,缓冲/回填材料会受到热、水、力等多场耦合作用的影响,因此含接缝的缓冲/回填材料在热
学位
随着信息技术的发展,全方位的网络服务和众多移动应用为人们在网上发表观点提供了便捷的途径,这使得网络上蕴含情感的评论文本大量产生。如何让机器理解评论文本的语义并判断其情感倾向,为搜索排序、商品推荐、事务决策、社会治理等上层应用提供依据,已成为学术界和工业界共同关注的热点问题。在实际的应用场景中,评论文本往往面向的是不同的领域,而不同领域的评论针对的是不同的评论对象,所采用的表述语言和情感词汇是有差异
学位
对话是人与人之间交流的重要方式,同时也是人机交互的主要手段。随着人工智能技术的发展,对话生成技术也得到快速发展,但其仍不能满足人们日益增长的生活需求。研究基于神经网络的对话生成新技术,对促进对话系统和人机交互技术的发展具有理论价值和实际指导意义。目前,基于深度神经网络的对话生成方法已经取得了较大的进展,但仍存在一些问题需要探索:(1)现有的端到端对话生成模型容易生成通用性回复,并且生成的回复包含有
学位
轨道列车运维是轨道交通安全的重要保障,基于物联网和人工智能(Artificial Intelligence,AI)技术实现轨道列车关键部件在线监测是当前智能化列车运维的发展趋势。轨道列车在线监测主要包含两个关键步骤:数据采集和故障诊断。由于轨道列车车体结构和运行环境的复杂性,基于物联网和AI技术实现列车数据采集和故障诊断仍面临诸多问题。一方面,大量已有列车车体底部的一些关键部件所处的位置未预留电源
学位
聚合物材料因其结构丰富、柔韧性好、可溶液加工、成本低、质量轻等优势,被广泛应用于聚合物薄膜晶体管及光电探测器的研究开发中。但是聚合物薄膜的无序结构限制了电荷的传输,因此制备高有序度聚合物薄膜成为改善器件电荷输运的重要途径。纳米线结构的引入是提高聚合物薄膜有序度的重要手段之一。然而这一结构对电荷传输及器件性能的影响有待进一步探究。同时,关于纳米线结构对电化学晶体管、光电探测器等光电器件性能影响的讨论
学位
自深度学习模型在ImageNet 比赛上以惊人的性能引起广泛关注以来已有十年时间。深度神经网络在计算机视觉,语音处理,自然语言处理,搜索,计算广告学乃至推荐系统等多个领域都取得了巨大成功,推动了人工智能的快速发展。与此同时,深度学习的黑箱特点让研究者仍然无法从科学的角度理解深度神经网络的学习机理。深度学习的黑箱难题一方面使得深度学习面临对抗样本等问题的挑战,另一方面也使人们无法有效地来选择模型结构
学位
随着工业化进程的加速,空气污染已经成为了一个全球性的问题。空气污染会对人体健康带来很大的威胁。因此,对于空气污染进行监测和预测显得尤为重要。近年来,为了更好地进行空气污染监测,国家建立了许多空气质量监测站点(标准站)来实时监测空气污染物。这些站点可以提供准确的污染物浓度数据,但是部署这些站点需要高昂的成本,因此导致了它们的分布较为稀疏。随着传感器技术的发展,低成本、便携的微型空气监测传感器设备(微
学位
高功率光纤激光器,具有结构紧凑、光束质量好、转换效率高、散热好等独特的优势,在军事战术武器、激光雷达、相干光通信、工业加工、激光医疗等领域应用广泛,是国际上激光技术研发领域持续发展的热点方向之一。随着高功率光纤激光器输出功率的迅速攀升,增益光纤中非线性效应和横模不稳定性问题已成为其进一步发展的瓶颈,亟待突破。大模场面积(Large Mode Area,LMA)单模光纤,在增大模场面积的同时,保持单
学位