基于深度学习的多标签文本分类研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wf1899
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,互联网成为了人与人之间共享知识、分享内容的主要平台,大量的文本数据被互联网所记录,对于这些结构复杂且内容多样化的信息,如何被用户所查阅或检索成为了一项重要的工作。网络问答社区中包含了大量的文本信息,面对如此庞大的信息量,利用多标签文本分类技术可以对文本信息进行分类,帮助用户在最短的时间找到自己所需要的问题话题。
  多标签文本分类技术是指为每个文本打上一个或多个不同的标签,使得这些标签可以大致反映出文本的内容与适用范围,用户可以根据这些标签判断文本的信息,或通过标签检索出所需要的文本。深度学习作为机器学习中的一个重要领域,越来越多的被应用于多标签文本分类任务中,深度神经网络可以无须人工干预,自动化训练出合适的网络模型。其中卷积神经网络可以更好的提取文本局部特征,循环神经网络可以有效的处理序列文本,获取上下文特征。
  知乎网站作为一个网络问答社区,包含了各式各样的文本信息,其中知乎问答系统成为人们最经常使用的模块。提问者发布话题标题和话题描述,并对其打上合适的标签,用户可以根据标签找到自己感兴趣的话题进行回答或者查阅。因此,本文将结合深度学习相关知识,采用非人工标注的方式为话题打上标签,并通过知乎话题数据对网络模型训练,计算并对比出不同网络模型的准确度。
  本文引入标签相关性理论,提出基于统计的标签相关性假设,对标签之间的关系进行划分,利用爬取的知乎问答数据集验证标签相关性假设的正确性。将标签相关性概率模型与深度学习网络模型结合,在原有模型基础上,使用全连接层或局部连接层为原有模型的输出权重添加标签相关性信息,并针对局部连接层采用条件概率排序和权值共享等方式提高网络模型训练效率,结合实验对比出不同网络模型之间的结果差异,通过对结果的分析,验证标签相关性模型的可行性与准确性。
  本文通过对比五种网络模型结果,分析模型之间的差异,得到不同模型的优缺点与适用范围。根据局部连接网络模型证明基于统计的标签相关性假设的正确性,对模型结果进行分析,得出引入标签相关性信息可以提高多标签分类准确率。
其他文献
GaN基电子器件在光电子和射频大功率器件领域有着巨大的应用前景,但是目前生长的GaN材料仍有较高的缺陷密度,GaN基器件也存在很多可靠性问题。本文的研究重点是利用超临界流体技术来修复GaN材料和AlGaN/GaNHEMT器件中的缺陷,提高GaN材料及其器件的性能。另外本文还进行了AlGaN/GaNHEMT器件的单步工艺开发。本论文的主要研究工作总结如下:  (1)用磁控溅射10nmCr当做电子传导
学位
随着人工智能、大数据、云计算等领域的快速发展,业界对处理器性能的需求不断增长,片上系统(SoC, System on Chip)中IP核的数量不断增加,片上网络规模的也随之不断增加,片上网络的通讯功耗,网络拥塞等问题,使得片上网络性能迅速降低。近年来,面向片上网络优化研究已成为了相关领域的研究热点。因此,本文以片上网络优化问题为研究目标,开展了片上网络映射算法、片上网络优化方法和片上网络仿真器方面
学位
微波固态源器件的研究已成为大功率器件研究的主要内容之一,作为两端口器件中射频振荡输出功率最高的IMPATT器件,GaN基IMPATT二极管是目前国际上非常推崇的最具潜力的太赫兹功率辐射源器件,受到越来越多的重视和深入研究。目前,国际上还没有关于GaN基IMPATT二极管实验研究的报道,但大量的理论模拟结果表明,宽禁带半导体GaN是未来制造IMPATT器件的极具潜力的材料。在此背景下,进一步明确Ga
重大科学技术的发展成熟总是给人类社会生活带来重大的变革,一直以来,路灯都是仅以照明为目的,但随着科技日新月异的同时,尤其物联网技术成为现实之后,人们意识中的传统路灯已经满足不了建设智慧城市、智慧社区的要求。传统路灯大多数是采用手动、光照、时钟控制以及半夜的超大功率运行,不能按需调节亮度,不仅造成能源的浪费而且降低了其使用寿命。此外,路灯分布分散,缺乏有效的定位手段,给维护管理增加了难度,浪费了社会
随着高速无线通信技术的快速发展,毫米波无线收发机中锁相环型频率综合器的研究变得愈发重要。分频器是锁相环型频率综合器中工作频率最高、功耗最大的模块之一,它的优劣直接影响了频率综合器与收发机信号源的整体性能。在分频器中,注入锁定分频器凭借其工作频率高、功耗小的特点,受到了广泛的关注。然而注入锁定分频器的锁定范围较窄,限制了无线通信系统的性能。因此,本文对宽锁定范围注入锁定分频器的设计技巧进行了深入研究
近年来,CMOS图像传感器凭借其噪声小、集成度高、成本低等特点,市场份额已经赶超CCD图像传感器,被广泛应用在各种成像领域。对于CMOS图像传感器来说,像素的性能对传感器的成像质量起着最为关键的作用,故本文针对像素的量子效率、满阱容量、暗电流和电荷转移特性,进行了像素的设计和优化,并重点研究了强曝光下影响图像拖尾的电荷回流现象。  本文通过采用六管像素结构使全局曝光CMOS图像传感器能够兼容微光成
随着物联网的快速发展与应用,其物理层不同类型的传感器累积产生了海量的多源异构数据。然而,如何选择、利用更合适的传感器数据,以及实现多源异构数据的协同,是目前物联网发展中面临的重要问题。因此,本文利用不同类型的神经网络对多源异构时间数据、时间与空间数据之间进行协同处理。本文以动态草畜平衡系统为例,通过对卫星传感器获取的归一化植被指数(NDVI)数据与地面气象传感器产生的降雨量数据进行协同处理与分析,
通用串行总线USB(Universal Serial Bus)是一种新型的微机总线接口规范.随着客户对系统数据采集速度要求的不断提高,USB以其使用方便、易于扩展、速度快等优点而越来越多的应用于数据采集系统中.该文介绍了一种基于USB总线的高速数据采集系统的设计方法.该文从硬件和软件两个方面详细地介绍了基于USB接口的高速数据采集处理系统的设计与研制过程.一般来说,USB接口的高速数据采集系统的硬
学位
USB
视频监控系统是城市治安防控、重点区域监测的主要手段,广泛用于平安城市、军事国防、交通运输等各个领域。视频设备的IP化和广域互联导致视频监控系统面临严峻的信息安全问题。视频内容篡改伪造是视频监控系统的主要攻击手段。基于视频指纹的视频篡改伪造检测方法因其视频指纹提取算法复杂度高、效率低而无法实现视频篡改伪造的实时检测。本文聚焦于视频监控系统的视频篡改高效检测与恢复技术研究,具体工作如下:  利用高斯差
学位
近年来单细胞测序技术的进步使得对不同组织类型和不同细胞状态的基因表达在单细胞水平上的高通量获取得以实现,这令生物学家能够在细胞群中剖析细胞的异质性,也因此催生了许多单细胞方面的工作。其中,通过单细胞数据识别细胞类型是很多研究工作的基础,细胞类型识别的精准与否对下游工作的分析具有至关重要的作用。传统识别细胞类型的方法受单细胞测序技术的限制,仅能基于单细胞转录组测序数据进行分析,当然这些丰富的研究工作