有限训练样本条件下的文本分类方法研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:huweiguangkaka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术在自然语言处理领域的不断发展,文本分类任务取得了重大进展,其成功的主要原因之一在于拥有海量的有标注训练数据,但是在现实场景中,大量的训练数据是难以获取的,这极大地限制了文本分类任务的发展。为了打破文本分类任务的发展瓶颈,业内提出多种方法来解决有限训练样本条件下的文本分类问题。本文主要针对该问题进行探究,研究内容包括以下三点:(1)针对现有方法大多专注于挖掘文本内部浅层的语义信息,而忽略了引入额外知识来解决标注数据短缺问题,我们提出了一种新的基于知识增强的文本分类模型。详细介绍了模型的整体架构,具体实现细节以及所用到的实验环境、实验数据、参数信息,并在4个公开数据集上设计了对比实验,实验结果均显示我们的模型具有一定的竞争优势。(2)借助元学习和少样本学习的思想,赋予深度神经网络处理有限样本的能力。以往的研究大多忽略了支持集与查询集之间存在的交互信息且忽略了样本间的重要性程度不同,我们提出了一种基于特征提取和度量网络的少样本分类模型,共分为四部分:词嵌入模块、上下文编码模块、双向注意力模块和度量模块。模型结合GRU的全局信息提取能力和注意力的局部细节学习能力对文本特征进行建模,同时构建双向注意力网络来捕获支持样本与查询样本间的交互信息,并创新性的提出“类别表示生成器”用以区分同类样本间的不同重要性同时生成更具判别性的类别表示。此外,为了获得更为清晰的分类界限,还设计了一个类别感知的正则化项来优化类别表示。实验结果表明,本文提出的模型相较于其他基线模型的分类准确率均有提升。(3)本文关注如何充分挖掘文本深层连续的语义信息并区分不同样本、不同特征的重要性,缓解样本特征稀疏的问题。因此本文提出了一种基于双向门控时间卷积和混合注意力机制的少样本分类新方法。设计了带有注意力机制的双向门控时间卷积网络作为特征提取器,既克服了RNN不能并行处理的局限性又能够有效的从文本数据中提取到时序特征。在此基础上还提出了混合注意力机制,帮助区分不同样本和特征的重要性,突出特征空间的重要维度并针对不同查询样本形成对应的距离公式,缓解样本特征稀疏问题。为了验证设计,我们在2个真实数据集上进行了对比实验,并对实验结果进行了分析。
其他文献
如今科技发展日新月异,视觉SLAM被广泛应用在无人机、无人驾驶、AR、智能家居等众多领域,其技术也取得了惊人的发展。闭环检测作为解决视觉SLAM累计误差的关键技术之一,现有结合卷积神经网络的闭环检测技术已取得了阶段性的成果。但当存在快速移动物体等大型复杂场景下,现有的视觉SLAM闭环检测方法依然存在鲁棒性、准确性和实时性不足问题。本文以CSP-Darknet为基础,依据闭环检测的局部空间特性,改进
学位
全面预算管理近年来越发成为企业战略执行的有效工具,资源合理配置的重要手段,内部控制的辅助手段和业绩评价的重要依据,在许多大型企业得到了广泛应用。A公司是某市一家大型国有独资企业,组建于2008年12月,主要负责统筹某市中心城区供水、污水处理、河涌综合整治、滨水土地及其附属水利设施等涉水项目的投融资、建设和营运工作。作为一家成熟的水务企业,A公司的营业收入趋于稳定,全面预算管理对于公司成本管控和提高
学位
科学技术的快速发展促进了互联网平台的发展与壮大,信息化时代给人们学习和生活提供了很大的便利,这使得用户能够更方便、快捷地通过各种渠道获取各类带有情绪的信息,很大程度上加快了情绪传播的速度,同时也拓宽了情绪传播的范围,但是在用户快速传播情绪的同时也极易在社交网络上引起一些负面的影响。因此,研究社交网络上用户情绪传播的行为与规律,并制定有效的策略来引导情绪传播的方向,对维护社会的稳定具有重要的意义。在
学位
随着互联网发展如火如荼,满足各类商业要求的在线广告不断涌现,与之相关的数据呈现爆炸式增长态势。为应对庞大数据中的信息过载问题,利用物品信息、用户画像和历史记录等数据,对不同用户进行个性化推荐的点击率预测技术应运而生。有关点击率预测的研究,在挖掘用户兴趣、强化宣传效果、优化广告投放成本等方面具有重要的理论与实际价值。然而最近的研究表明,目前主流的点击率预测方法仍存在数据稀疏、特征粒度单一以及特征挖掘
学位
褐环乳牛肝菌(Suillus luteus)是一种药食两用的珍稀野生食用菌,具有重要的经济和药用价值。本研究应用单因素试验结合响应面法优化多糖提取工艺,采用高效阴离子交换色谱法(High performance anion exchange chromatography, HPAEC)、傅里叶变换红外光谱法(Fourier transform infrared spectroscopy, FTIR
期刊
分布式约束优化问题(Distributed constrained optimization problems,DCOP)和非对称分布式约束优化问题(Asymmetric distributed constrained optimization problems,ADCOP)是多智能体领域的一个常用框架,其中智能体从各自的离散域中取值以寻求利益最大化,在研究意义与工程实践上都有很大前景。局部搜索算
学位
随着人类生活水平的提高,近年来全球胶原行业呈现快速增长的趋势,现有的胶原原料和胶原产品无法满足消费者的需求。三文鱼占全球海产品供应的4.4%,且产量呈快速增长的趋势,三文鱼鱼肉是一种常见的高蛋白鱼类产品,备受市场青睐。而三文鱼鱼皮没有被充分利用,部分作为食用材料,部分作为废料弃用,造成大量浪费。故,本文以三文鱼鱼皮为研究对象,制备三文鱼鱼皮胶原,并以三文鱼鱼皮胶原为原料,从动力学水平考察环境因素对
学位
自2008年以来,我国企业跨境并购的数量和规模持续稳步上升,2016年后虽有回落,但仍呈活跃态势;在深入市场化改革的过程中,民营企业逐步代替国有大型企业,成为最活跃的海外投资者。既有研究结果表明,我国企业跨境并购交易成功率远低于发达国家,而民营企业在并购中只能依靠自身能力去应对各种风险,失败概率往往更高。近年来,国际政治、经济环境面临的不确定性加剧,跨境并购面临更大风险,商务部、国资委等部位也发布
学位
基础设施建设投资是我国拉动国民经济增长的重要手段之一,PPP模式是目前我国除政府直接投资以外,占据主流的基础设施建设投资模式。据国家统计局公布数据显示,近年来我国固定资产投资额增长率呈逐年下降趋势,其原因之一可能与PPP项目融资、尤其是社会投资方的资本金融资难有关。PPP项目投资金额大、项目周期长,社会资本方参与投资PPP项目时,按政府规定必须以一定的比例投入项目资本金。因而出现企业自有资金无法支
学位
以南水北调中线工程丹江源地区作为研究对象,采用地统计学、相关分析、回归分析和GIS等方法技术,揭示了不同地质建造单元土壤有效态微量元素的空间变异特征及影响因素。结果表明:研究区土壤有效铁、有效锰、有效铜、有效锌和有效硼平均含量分别为45.51、42.39、1.26、3.34和0.39 mg·kg-1,其中有效铁、有效锰和有效锌含量达丰富及以上水平,有效铜含量适中,有效硼含量处于较缺乏水平;不同地质
期刊