基于文本与标签编码交互的文本分类方法研究

来源 :天津科技大学 | 被引量 : 0次 | 上传用户:jizhejida
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域的经典问题,是对文本进行数值向量化表示后通过一定的分类方法将文本自动归属于预先定义好的类别。相关技术被广泛应用于以文本作为信息主要载体的互联网领域中。文本分类技术中文本表示是最核心和最关键的一步。启发式的文本表示方法主要是通过人为构造的向量进行表示,存在稀疏性。词向量方法利用神经网络将词映射到低维稠密的空间。神经网络模型能够灵活提取文本深层次的语义和复杂语境特征,是目前研究的热点。然而,上述模型仅利用了文本本身的信息,缺乏全局分类信息,对文本序列直接建模产生的文本表示和分类标签关注的类别信息存在差异。本文研究如何有效地利用标签嵌入技术在文本表示阶段早期关注到与分类信息关联大的内容以提升分类效果,具体如下:1)针对现有文本与标签编码交互方法未能充分利用标签的语义表示,提出了融合文本内容和标签引导文本编码的文本分类,通过得到经由标签嵌入过滤文本的新表示,同时融合文本本身内容编码来缓解模型在当前文本语义建模过程中的退化问题。实验表明,所提方法对比当前代表性方法有进一步提升。2)针对1)中文本和标签语义交互层面单一、忽略了文本与标签在显式和隐式方面的语义相关性,提出了标签与文本双向多通道语义交互模型的文本分类方法。方法通过使用浅层交互通道来捕获显式具体语义交互信息,使用深层单向和双向交互通道来捕获隐式抽象语义交互信息,并设计了一种门控残差机制更有效地获取标签的历史信息。实验表明,所提方法取得了比强基线方法更具竞争力的结果。3)针对1)和2)中标签语义描述不完整不充分、无法同步优化等问题,提出了基于标签语义约束和多任务学习的文本分类,引入维基百科语料库提升标签嵌入语义描述完整性,并在模型训练的过程中对标签的嵌入表示进行约束。实验表明,构造语义更完整的标签嵌入并在训练阶段对标签的嵌入进行约束的有效性。
其他文献
近年来,城市自然灾害发生的频率越来越高,造成了大量的人员伤亡和财产损失,因此需要大力推进城市灾害防御工程建设,其中完善城市灾害应急管理系统就是很重要的一个方面。但是在目前的应急处理中,不但不同的部门有各自的应急管理系统,各自管理,较为分散,而且系统本身大多数采用中心化管理,以上原因导致应急处理过程存在着消息共享不及时,受故障或者攻击影响较大,事后难以追责等问题。区块链技术凭借其去中心化、防篡改以及
学位
图像超分辨率是计算机视觉领域的一个重要分支,在安防、医疗、军事等领域具有重要的研究意义和应用价值。近年来,随着神经网络等技术的不断发展,图像超分辨率在准确率和生成速度等方面都取得了更好的成就。在图像超分辨率的训练过程中,真实的训练数据一般很难获得,基于此,研究者大都使用人工构造的训练数据进行训练。但是,使用人工构造的数据进行训练得到的图像超分辨率模型存在一个问题,那就是对人工构造的低分辨率图像超分
学位
为了提高基于设计牵头的EPC项目设计管理水平,论文通过分析EPC项目培养过程中所涉及的内容,提出EPC项目设计管理要点,并探讨研究了设计与造价、采购、施工、试运行以及设计变更在EPC项目管理中的应用,解决了设计企业在EPC项目设计管理中存在误区和“黑匣子”等问题,从而推动设计企业自身业务的发展,并不断提升企业自身竞争力。
期刊
目前传统的推荐系统,存在严重的长尾效应。推荐系统往往只会给用户推荐当前比较热门的物品,而具有较高价值性但比较冷门的物品没有得到良好的推荐。因此,为了解决上述问题,本文提出了一种基于物品协同过滤的改进长尾推荐算法。本文的主要工作包括内容如下:(1)目前基于物品的协同过滤推荐算法,其在数据集上存在较为严重的稀疏性,稀疏性影响相似度的计算,越稀疏计算得出的推荐准确率越低,且长尾物品并没有得到较好的挖掘。
学位
强化学习为机器学习领域的重要学习方法,主要研究智能体如何根据当时环境做出较好的决策,是最有希望实现人工智能这个目标的研究领域之一,也是智能系统开发者关注的研究热点。策略梯度算法是强化学习领域中实用性强、易于实现,被认为是处理连续空间中复杂决策任务的主流方法,但此类算法存在梯度估计方差大,策略更新不稳定问题。基于参数探索的策略梯度算法(Policy Gradients with Parameter-
学位
企业经营发展离不开现金流,2018年4月财政部发布的最新的会计准则里,有一定量的指标都是和现金流相关或者密切相关的。显而易见,现金流体现了企业的运营能力和支付能力,因为现金流是资金的流动,包括资金的筹措和周转。资金的筹措通常是和公司的投融资活动相关,而资金的周转通常是和公司的日常经营相关,这样,现金流就将公司的日常经营活动和投融资活动自然地联结起来。它不仅仅是企业运营能力和支付能力的体现,更是因为
学位
深度神经网络是整个深度学习领域的核心,而基于梯度下降法的反向传播算法又是整个神经网络体系的基石。目前深度神经网络的参数学习主要是通过梯度下降法来寻找一组最优参数,虽然深度神经网络具有非常强的能力,但对其优化却十分困难。首先,神经网络的损失函数是一个非凸函数,找到全局最优解比较困难。其次,深度神经网络的参数通常非常多,训练数据也非常大,这就使得计算代价很高的二阶优化算法无法使用,而一阶优化算法的训练
学位
静态兴趣点推荐一直以来都是研究热点以及商业应用重点。现在基于可移动性兴趣点的研究也逐渐成为商业公司的关注点,并成为研究热点和未来需求。例如,能够为行人售货的自动行驶零售车就是一种典型可移动性兴趣点推荐的应用。可移动性兴趣点的推荐与传统的静态兴趣点推荐存在本质上的差异。为了解决可移动性兴趣点推荐问题,本文提出了一种针对具有可移动性兴趣点的推荐的算法。主要包括以下内容:(1)本文提出了一种包括3个网络
学位
近年来,随着天文观测设备数据采集能力的提高,天文星表数据呈现爆发性的增长,天文学已经进入了大数据的时代,由于天文数据量非常庞大,导致应用传统科学计算方法生成天文时序数据时效率不高,直接影响了时域天文学的科学产出,如何对其进行高效访存及快速交叉证认,加速时序数据生成成为当前的一个重要研究方向。传统的关系型数据库对海量星表数据的存储和处理相对薄弱,分布式环境下非关系型数据库的应用为此提供了一个新的研究
学位
湿地是重要的生态科学基因库,也是鸟类主要的栖息场所。鸟类的种类和数量可以作为湿地自然环境和生态系统的重要评价指标。构建湿地鸟类智能识别系统,不仅有助于自然生态保护区对鸟类的管理和研究,还可以监控和跟踪保护区内濒危鸟类,为湿地鸟类保护提供更有针对性的措施。随着人工智能的发展,基于深度学习的目标检测方法展现了它在鸟类识别上优良的特征提取能力,但是同时也需要大量的、分布均衡的数据支撑。然而实际的湿地鸟类
学位