基于LOTClass模型的弱监督中文短文本分类算法

来源 :信息工程大学学报 | 被引量 : 0次 | 上传用户:alex_tan01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于全监督学习的文本分类算法需要使用大量的标签数据,而文本数据的标注任务耗时耗力且标注难度较大.针对上述问题,提出了一种基于LOTClass模型的弱监督中文短文本分类算法.首先,使用少量的标签数据构建类别种子词表;其次,使用类别种子词表指导训练中文伪标签生成模型,并使用该模型生成大量伪标签数据;最后,利用优质伪标签数据训练一个中文短文本分类模型.在THUCNews新闻标题数据集和论文标题数据集上进行实验,结果表明,该算法在仅使用少量标签数据的情况下,其性能优于主流的半监督分类算法,同时不逊于一般的全监督分类算法,为无标签数据分类任务提供了一种较好的解决方案.
其他文献
随着人工智能的发展、含有激活函数库开源框架的增加,针对激活函数库的对比与分析越来越重要.在Intel x86架构上进行实验,从函数性能、稳定性、精度3个方面测试并分析了PyTorch和TensorFlow两种主流人工智能框架中的常用激活函数.实验结果表明,PyTorch的整体稳定性要高于TensorFlow,且Sigmoid、Hardsigmoid、SeLU、ReLU、ReLU6、Tanh函数的性能皆优于TensorFlow;在精度方面,TensorFlow中除SeLU函数与LeakyReLU函数稍差些,
动态故障树相比传统的静态故障树,具有动态性、时序性和冗余性等动态失效特征,其顶事件发生概率的计算方法更加复杂.采用深度优先搜索方法获取动态故障树子模块,介绍了基于最小割集和二元决策图的静态故障树顶事件概率计算方法、基于马尔科夫链和积分公式的动态故障树顶事件概率计算方法.重点分析了4种计算顶事件概率方法的适用范围和特点,总结了计算动态故障树顶事件概率的一般计算流程.最后以飞机某新型氧气系统失效为例进行分析验证.
为提高无监督图像分割准确性,提出一种新的基于深度超像素的超图谱分割方法.首先,通过多种过分割方法得到超像素,以迭代的方式两两求交集表示为深度超像素,作为超图的顶点.其次,根据超像素和深度超像素之间的关联性构建超边,形成超图模型.最后,通过对超图拉普拉斯矩阵进行谱分解将超像素聚成不同的类,从而得到图像的分割结果.相较于经典方法,新方法在伯克利分割图像库上产生更好的分割结果,验证了该方法的有效性.
知识图谱补全能够将知识图谱补充完整,是知识图谱领域的一个研究热点.基于知识表示学习的知识图谱补全学习知识的向量表示,利用向量的计算挖掘知识图谱中的隐藏关联,具备更高的计算效率和更强的泛化能力,是知识图谱补全最好的方案之一.首先,介绍知识图谱补全和知识表示学习的概念;其次,按照实体和关系是否固定分别介绍静态知识图谱补全和动态知识图谱补全,对两个不同场景下各类算法的思路及改进过程进行详细说明;最后,总结知识图谱补全研究现状并展望未来研究方向.
元启发式优化方法是经典密码分析的有效手段之一,遗传算法是经典密码分析中应用最广泛的一种元启发式技术.对遗传算法在经典密码分析中的应用进行了深入调查,论述了现阶段国内外发展现状,阐述了遗传算法的核心要素和技术难点,并对仍需进一步关注的问题提出了思考.
在跨域认证过程中,区块链技术的应用提高了系统的安全性和稳定性,但同时影响了认证信息的共享效率.针对认证信息共享速率较慢的问题,提出基于改进实用拜占庭容错算法的认证信息共享技术.首先,在算法中加入投票环节,提高了主节点的可靠性;其次,加入对服务质量敏感的信用评价机制,提升服务质量;最后,针对身份认证信息的共享需求对共识阶段做了进一步优化.仿真实验表明,该技术具有较好的拜占庭适应性和较低的通信开销.
网络空间安全与人工智能间存在广泛的研究结合点.一方面,人工智能技术成为网络空间安全技术难题的重要解决手段,越来越多的研究基于人工智能去构建恶意代码分类、入侵检测以及网络态势感知的智能模型.另一方面,人工智能技术本身具有一定脆弱性,带来诸如对抗样本攻击等新的漏洞.人工智能模型需要先进的网络安全防御技术来抵御对抗性机器学习攻击,保护机器学习中的隐私数据,构建安全的联合学习模型.综述了网络空间安全与人工智能研究的契合点.首先,总结了在使用人工智能对抗网络攻击方面的现有研究成果,包括采用传统的机器学习方法和现有的
目前,新冠肺炎传播迅速,影响广泛,对全球的人类生存和经济都造成了重大影响.已有的流行病学分析方法侧重于统计分析,忽视了病例间的时空传播关系和语义关联关系.通过构建新冠肺炎病例知识图谱进行可视化并加以分析,可以结合语义和时空特征挖掘新冠肺炎传播过程和发展趋势.以郑州市疾病预防控制中心发布的病例通报数据为基础,针对人群活动模型组成要素,构建了新冠肺炎病例知识图谱本体层和数据层.在构建知识图谱后,综合应用甘特图、平行坐标图、关联关系图等可视化方法,设计了一个基于新冠肺炎病例知识图谱的交互式可视分析原型系统,发现
网络协议和应用的不断变化、网络流量的高速增长,都对流量识别方法提出越来越高的要求.为适应复杂多变的网络环境,提出一种未知流量数据的智能特征提取与实时分类识别算法.该算法通过构建深度学习卷积神经网络实现网络流量特征的自动学习,不仅能够实时识别已知流量,还能进一步对未知流量进行实时分类,并感知新出现的未知流量从而创建新的未知类.通过数据量和特征库的不断积累,达到扩充识别种类(包括已知和未知)、提高系统实时识别能力的目的.实验结果表明,该算法在已知流量和未知流量的实时分类识别上均具有较高的识别准确率.
命名实体识别作为信息抽取的核心任务,能够从文本中识别出各类命名实体.近年来,深度学习技术在字词表示、特征提取等方面上的应用,使中文命名实体识别任务取得了较为丰富的研究成果.目前,基于深度学习的中文命名实体识别技术,在特征提取的深度和模型的精确度上已逐渐超过了传统的基于规则的方法、基于特征工程的有监督方法和基于无监督的方法.围绕深度学习的识别框架,将现有基于深度学习的中文命名实体识别方法分嵌入层、编码层和标签解码层三部分进行介绍,并对未来可能的研究方向进行探讨和展望.