稀疏数据下结合词向量的短文本分类模型研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:huihuiwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对短文本缺乏足够共现信息所产生的词与词之间弱连接,且难以获取主题词的情况,导致面向短文本分类工作需要人工标注大量的训练样本,以及产生特征稀疏和维度爆炸的问题,提出了一种基于注意力机制和标签图的单词共生短文本分类模型(WGA-Bert)。首先利用预先训练好的BERT模型计算上下文感知的文本表示,并使用WNTM对每个单词的潜在单词组分布进行建模,以获取主题扩展特征向量。其次提出了一种标签图构造方法捕获主题词的结构和相关性。最后,提出了一种注意力机制建立主题词之间,以及主题词和文本之间的联系,解决了数据
其他文献
基于组合设计理论,对周期为N≡1(mod4)的平衡最优几乎二元序列对的构造方法进行了研究。根据(几乎)二元序列对的不同组合,得出了互相关值分别为θ_(c)=1,2,3,以此θ_(c)值为前提,推导得出3种情况的自相关理论界,并生成了4类满足互相关值和自相关理论界下界值的平衡(几乎)最优几乎二元序列对。所提构造方法,扩展了互相关值的取值范围并进一步降低了最优二元序列对的互相关值,且序列长度参数f可选
期刊
针对生活中专车类空间众包用户存在偏好和延时等待的实际情况,提出一种基于用户满意效用的专车类空间众包任务分配方法。首先,定义了由用户偏好效用、延时等待效用和任务完成期望组成的用户满意效用;其次,以用户满意效用为基础构建了空间众包的任务分配模型;接着,通过离散编码、反向学习协同初始化、四种改进移动策略、自适应选择和不可行解处理,提出一种适用该模型的改进离散萤火虫群优化算法;最后,利用改进离散萤火虫群优
期刊
利用国家气象信息中心的逐日平均温度资料及日本气象厅的JRA-55再分析资料,本文分析了1961~2017年冬季中国全区一致型极端冷、暖日和南北反位相型极端冷、暖日的特征.在1961~2017年冬季期间,随着中国平均温度增加,一致型极端冷日的发生天数在减少,且发生时间有向12月下旬到1月上旬集中的特征,而全区一致型极端暖日在1月和2月有显著的增加.全球变暖的作用使得一致型极端暖日的增多和一致型极端冷
期刊
蒸散是地球水分循环与能量转换的关键环节.陆域蒸散的精准测算是地球物理、生物乃至环境过程研究的共同科学难题.以英国Dalton和Penman等人为代表的开创性工作,以及大气边界层湍流交换理论与实验的不断发展,奠基了现代主流的蒸散测算方法. 20世纪90年代以来技术趋于成熟的涡动相关系统和卫星遥感等观测手段,跨越寒带到热带、干旱区到湿润地区,涵盖水体、湿地、森林、农田、草地、裸地、城市等不同下垫面类型
期刊
为构建安全高效的网络环境,必须对伪造、受篡改数据帧进行有效地识别与过滤。但是,在软件定义网络(SDN)中,现有安全验证机制通常在验证设备受到攻击或恶意控制时无法有效运行。为解决这个问题,提出了基于区块链的软件定义网络数据帧安全验证机制。首先,以帧转发证明共识算法为基础建立轻量型区块链系统;然后,基于该系统构建针对SDN数据帧的安全验证体系;最后,提出可灵活调节的半随机选择验证模式以兼顾验证效率与资
期刊
增温背景下,频发的干旱事件已对工农业生产和人民生活造成了巨大损失,旱情的监测和预报日益受到重视.然而,目前用于干旱研究的干旱指数绝大部分是针对月以上的时间尺度,适用于干旱监测和预报的日干旱指数相对稀缺,不利于对干旱监测和预报准确率的改进以及对现有日干旱指数的评估.文章利用气象站实测数据和ERA5高分辨率再分析资料,基于实际蒸散发和潜在蒸散发构建了一个新的日干旱指数——日蒸散发差指数(Daily E
期刊
随着计算机软件规模和复杂度的不断增加,软件中存在的代码缺陷对公共安全形成了严重威胁。针对静态分析工具拓展性差,以及现有方法检测粒度粗、检测效果不够理想的问题,提出了一种基于程序切片和语义特征融合的代码缺陷静态检测方法。首先,对源代码中的关键点进行数据流和控制流分析,采用基于过程间有限分布子集(IFDS)的切片方法,获取由多行与代码缺陷相关的语句组成的代码片段;然后,通过词嵌入法获取代码片段语义相关
期刊
针对基于HTTP的动态自适应流(DASH)码率自适应算法未能充分利用视频缓存以及平均码率偏低的问题,提出一种DASH标准的基于缓存补偿的码率切换(BSBC)算法。首先,根据最近下载分片的下载速率分析带宽波动程度并得到预估带宽;其次,依据预估带宽和当前码率等级在缓存区设置动态上切阈值和动态下切阈值,利用动态上切阈值控制码率向上切换,消耗缓存时长,利用动态下切阈值控制码率向下逐级切换,累积缓存时长,在
期刊
机械制造中的产线分拣作业具有问题与数据的双重复杂性,为了对分拣操作进行优化以提高生产效率,设计了一套分拣作业的数据表示方法与一种基于种群优化的演化式算法,同时整理并公开了一个真实的工业数据集。数据表示方法通过借鉴词袋模型对原始作业数据进行抽象表示;演化式算法使用深度强化学习初始化遗传算法中的种群,同时引入了精英保留策略以提高算法的优化能力。最后,将提出的算法与其他算法在真实的工业数据集与旅行商问题
期刊
针对多模态情感分析中的模态内部特征表示和模态间的特征融合问题,结合注意力机制和多任务学习,提出了一种基于注意力的多层次混合融合的多任务多模态情感分析模型MAM(Multi-level Attention and Multi-task)。首先,利用卷积神经网络和双向门控循环单元来实现单模态内部特征的提取;其次,利用跨模态注意力机制实现模态间的两两特征融合;再次,在不同层次使用自注意力机制实现模态贡献
期刊