中文短文本中语义相似度计算方法及数据增强研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:smlz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本语义相似度计算为自然语言处理领域的一项关键技术,并且已在智能客服问答、自然语言推理、文本信息检索及自动阅卷等领域有了广泛应用。然而,当前针对中文短文本的语义相似度计算研究依然面临诸多挑战:(1)中文短文本的长度较短,所包含的有效信息有限,使得文本特征稀疏,并且传统的基于孪生网络构建的模型提取中文短文本的特征能力有限,具体表现为难以同时充分提取文本内部不同字词之间的关联信息及文本与文本之间的交互信息;(2)深度学习技术的加入提高了模型计算语义相似度的准确率,然而这类模型通常结构复杂,其好坏依赖于训练数据尤其是带标签数据的规模及质量。在真实场景中标签数据的获取过程耗时耗力,使得其数据规模不够大且标签类别数量分布不均衡,从而导致模型性能不佳。针对上述问题,本文分别提出了相应的解决方法,具体内容如下:(1)针对问题1,提出一种融合孪生网络与预训练模型Roberta的SRoberta-SelfAtt模型。首先,在孪生网络架构上,通过Roberta预训练模型分别将原始文本对编码为字级别向量,并使用自注意力机制捕获文本内部不同字之间的关联;然后,通过全局最大池化及全局平均池化策略分别获取文本对的句向量并将其拼接,进而将表示结果交互并融合;最后,在全连接层通过softmax计算损失值,评价文本对的语义相似度。将此模型在两类任务(智能问句匹配任务及自然语言推理任务)下的三种数据集(AFQMC、LCQMC及OCNLI数据集)中进行实验,在前两种数据集的测试集上F1值分别达到了80.05%及84.5%,在后一种数据集的验证集上平均精确率达到了 76.1%。实验结果相比于其他模型有所提升,为进一步优化文本语义相似度计算的准确率提供了有效依据。(2)针对问题2,提出一种基于简单文本增强法EDA及文本生成模型LaserTagger的混合文本增强方法。首先将原始文本通过EDA法中的随机交换策略进行数据增强;接下来将EDA增强文本与原始文本组成文本对送入LaserTagger模型中,得到关于输入文本对的复述文本,即为由混合方法得到的最终增强文本。将本文所提出的方法用于AFQMC数据集中,对其标签为1的部分进行数据增强,将增强文本与原文本结合做为SRbert-SelfAtt模型的训练集,其F1值达到了 86.71%。与原始未经数据增强、基于回译法及基于EDA中随机交换法的数据增强策略相比,分别提高了 8.3、0.9及3.5个百分点。实验结果表明,本文所提出的方法能够有效进行数据增强,从而在一定程度上提高模型计算的准确率。
其他文献
乌东煤矿北采区主采煤层为43#煤层和45#煤层,两煤层倾角均为43°~51°,属于急倾斜煤层,采用水平分段综放开采的采煤方法。近年来乌东煤矿冲击地压日益凸显,给矿井安全生产带来了隐患。乌东煤矿冲击地压是急倾斜煤层特殊开采条件下的动力灾害。因此,对其致灾机理与防治方法的研究具有重要意义。论文以乌东煤矿急倾斜煤层综放面冲击地压与防治研究为背景,综合运用工程调研、岩石力学实验、物理相似模拟、数值模拟和工
近年来,各种先进的硬件平台对供电电源的质量要求越来越高。为了提高电源的容量和可靠性,提出了一种带串并联管理的组合开关电源。该电源结合了 ISOP(输入串联输出并联)与IPOP(输入并联输出并联)的组合方式,由四个反激变换器模块通过串并混合连接的方式组成。该方案有效减小了功率器件的电应力,同时具有模块功率均衡、故障诊断和容错控制功能。功率均衡控制策略具体实施方式为系统中ISOP部分采用同占空比控制。
三通管是管网系统中一种常用的管道连接件,主要用于改变管内气流流动方向及各出口处流量,被广泛应用在航空航天、石油化工等行业中。当管内气流流经三通管分叉处时,由于流道截面发生较大变化,管内流场发生变化,有可能加剧气流湍流强度,严重时发生流动分离等非定常流动现象,导致气流脉动压力增大,在管内空腔诱发产生剧烈噪声。同时,当气流的脉动压力与三通管结构模态频率接近时,容易引起管道共振,严重时将导致三通管管道破
神东矿区是我国现代化的煤炭生产基地之一,也是我国典型的浅埋近距离煤层群开采矿区,主要以下行开采为主,在工作面末采回撤阶段的切顶压架事故时有发生。因此,本文以韩家湾煤矿3304综采工作面为工程背景,采取物理相似模拟、数值模拟、理论分析及现场实测等多种研究手段,充分分析了该工作面在末采贯通阶段回撤通道基本顶的垮落特征和围岩变形失稳的特征,并提出合理的围岩控制技术方案。现场调研表明,回撤通道围岩的变形量
随着智能机器人技术的不断进步以及煤炭工业生产力的不断提升,煤矿开采向着无人化、智能化方向发展。其中,自主定位、实时建图能力是煤矿井下移动机器人智能化程度评价的重要指标。基于视觉传感器的定位建图技术由于其成本低、信息丰富的优点,逐渐成为了目前的研究热点,视觉实时定位与建图(Simultaneous Localization and Mapping,SLAM)技术是其中的关键。相比单目和双目相机,深度
随着高层及超高层建筑的不断发展,双钢板-混凝土组合剪力墙已在工程中得到广泛使用。为提高短肢剪力墙的抗震性能,采用双钢板-混凝土组合短肢剪力墙是一种有效途径。组合短肢剪力墙的混凝土处于核心位置,钢板位于混凝土两侧对其进行约束,钢板和混凝土通过栓钉等连接实现两者协同工作。组合短肢剪力墙具有抗侧刚度好、自重轻、节省空间等优点,常见截面形式有一字形、T形和L形。L形截面剪力墙常用于建筑物拐角处,鉴于目前国
视频文本描述是一个具有挑战性的任务,它涵盖了计算机视觉和自然语言处理两个方面,其主要目标是将视觉内容转换为准确而简洁的文字描述。视频文本描述在很多领域都具有广阔应用前景,特别是在煤矿领域已经得到越来越多人的关注,把视频文本描述的技术运用到煤矿井下,降低了检索煤矿视频的难度和时间,对于煤矿井下监控视频智能化的研究具有重大意义。由于视频底层的视觉特征与高级语义之间存在着很大差异,本文通过结合视频的特征
果树模型构建及振动仿真实验对于振动收获设备研发具有重要意义。论文围绕多视角果树实体建模和动力学参数获取,融合多视角图像重建技术,有限元方法和刚柔耦合动力学方法创建振动装置-果树刚柔耦合仿真模型。具体内容如下:首先,基于运动结构的多视角重建技术对整形枣树进行三维实体重建,利用VisualSFM软件获得整形枣树三维稠密点云模型,通过点云滤波器工具去除点云模型噪声点和冗余点并对枣树树干区域进行提取,导入
目前,我国浅埋深条件下的现代化矿井辅助运输越来越多地采用了无轨胶轮车系统,随着井下采区的延伸和工作面的扩展,煤矿井下辅助运输网络也变得越来越复杂,由于传统的井下辅助运输调度系统功能简单,难以满足当前煤矿的生产需求。因此研究煤矿井下辅助运输车辆调度策略对提高井下车辆运输的效率及安全性具有重要意义。论文以X煤矿井下辅助运输系统为研究对象,通过对X煤矿井下辅助运输系统现状进行深入分析,明确了煤矿井下辅助
目标跟踪是计算机视觉领域的重要研究内容,在智能机器人、智能交通和视频监控等领域具有广泛的应用。相关滤波目标跟踪算法因其出色的准确率和速度优势,成为近年来跟踪算法中的里程碑。在实际场景中,目标尺度的改变、其他物体对目标的遮挡等都会对目标跟踪的准确率产生较大的影响。本文针对跟踪过程中目标尺度变化和目标被遮挡导致跟踪准确率低的问题,在经典的核相关滤波目标跟踪算法(Kernelized Correlati