【摘 要】
:
文本相似度,即文本间语义的相似程度,并以此判断不同文本间是否表达相同的语义。文本相似度,在智能客服、智能语音、搜索引擎、推荐系统等领域具有广泛的应用。文本相似度计
论文部分内容阅读
文本相似度,即文本间语义的相似程度,并以此判断不同文本间是否表达相同的语义。文本相似度,在智能客服、智能语音、搜索引擎、推荐系统等领域具有广泛的应用。文本相似度计算有较长的研究历史,最初的方法都是基于文本的统计信息,这类方法原理简单、易于实现,然而早期的方法无法准确理解文本的语义信息。随着深度学习技术的成熟,大量神经网络模型被用于计算文本相似度,并取得了良好的效果。本文是基于中文的文本相似度计算,目前,该领域基于中文数据的文献相对稀缺。同时本文聚焦于短文本,这类文本,内容短小,特征不明显,并且中文存在着词兼类、分词等一些列的问题,也会影响文本匹配的结果。本文设计了Bi GRU+Attention机制的模型,用于计算中文文本相似度,旨在证明Attention机制对于文本相似度任务的提升作用。模型的主体框架是Encoder-Decoder,而Bi GRU模型作为该框架两端的基础模型,能够解决长序列依赖问题,并且能很好的捕捉双向语义信息,再配合Attention机制,可以提升文本相似度任务的正确率。该模型中会适当的加入Batch Normalization层和Dropout层,以提高模型收敛能力,防止过拟合。并采取Attention增强操作,增强Decoder层的信息推导能力。本文总共使用了四个数据集,并进行了四项实验,前三项实验都是基于ATEC比赛数据集,该数据包含102477条样本。由于该数据集正负样本分布不均衡,实验采用F1 Score去衡量模型对于文本相似度任务的表现。由于样本不均衡对模型的实验结果影响较大,为了尽可能消除样本不均衡的影响,后续实验在模型的损失函数中调整了正负样本的权重,并改变了模型打标签的标准。实验结果表明,一定程度上消除样本不均衡的影响,能显著的提高模型的泛化能力。随后在词水平(word level)和字符水平(char level)分别建立模型,对比模型的性能。实验结果显示,样本权重经过调整后,词水平和字符水平上,模型泛化效果相差不大。第四个实验是在其余三个数据集上进行的,这三个数据集是自然语言推断常用数据集的汉化版。本文将所设计的模型与业界常用模型作对比,并列出了模型训练所需的时间。实验结果显示,本文模型除了与BERT微调后的模型有一定差距,与其他业界模型并无明显差别,同时能够更快的收敛。
其他文献
2018年中央经济工作会议提出,资本市场在金融运行中具有牵一发而动全身的作用,要通过深化改革,打造一个规范、透明、开放、有活力、有韧性的资本市场。国务院金融稳定发展委员会
民营企业是市场中最具有活力的经济主体,也是我国经济发展的重要支撑力量,在扩大我国人口就业、促进科技创新等方面做出了突出贡献,日益成为国民经济发展的力量之源。但是值得重视的是,民营企业的发展仍然存在着融资难和融资渠道窄的问题,导致民营企业发展的动力不足,特别是那些经济较为落后的民族地区,民营企业发展受到了较大的制约。在新常态背景下,恩施州民营经济面临着越来越紧张的金融束缚,金融缺失是制约企业发展的重
进入21世纪以来,我国广播文艺事业呈现出新的发展特色,但是文艺创作理念并未呈现颠覆性的激变状态,而是表现为平稳发展的态势,其中新的尝试亦多是在原有的基础上进行的。具体
为量化网络实时数据与道路交通拥堵之间的关系,以哈尔滨市三环路围合范围为研究区域,选取百度地图道路实时路况及百度地图热力图数据作为研究对象,分析工作提及休息日期间的
品牌化运营是我国农产品市场发展的“瓶颈”。在生产环节,低水平的品牌化运营会让生产者难以享受产品附加值提高带来的经济效益,因而使他们缺乏生产积极性;在消费环节,品牌信
随着数字电视技术的不断发展及进步,传统的基于ASI传输的有线数字电视传输平台已经无法满足现阶段数字电视业务的发展要求。有线数字电视前端节目传输IP化由于具有集成度高、
为了提高Ti6Al4V基体表层的生物学耐蚀抗磨性能,本文以Ti6Al4V为基体材料,采用喷丸强化技术及阳极氧化工艺相结合的方式制得TiO_2纳米管。使用TTR18kW铜靶X射线衍射仪对喷丸试样进行物相分析,利用JSM-7200F型扫描电子显微镜(SEM)观察喷丸表面的形貌和组织结构,应用密度泛函理论(DFT),基于第一性原理VASP软件模拟出喷丸产生的空位对扩散系数的影响。选用电子显微镜观察阳极氧
超高速碰撞产生电磁辐射是固体物质在强冲击作用下的重要物理响应。研究超高速碰撞产生的电磁辐射,涉及冲击动力学、固体物理、电磁学、光学、等离子物理、高压物理等多个学
聚晶金刚石(Polycristalline diamond,PCD)由于其高硬度、高耐磨性和高冲击韧性等优异性,广泛应用于地质钻探、机械加工和非常规油气勘探等领域,而热稳定性能作为衡量PCD服役
于葡萄黑痘病发病盛期,用病叶压片法对高抗黑痘病的中国野生毛葡萄商-24接种黑痘病病原菌,采用mRNA差异显示技术进行抗黑痘病基因表达差异的研究.结果显示:(1)获得了T11GG/B0