基于多粒度语义嵌入的多语义交互句子匹配研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:tim826
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络高速发展的时代,自然语言通常以文本的形式存在,如何处理这些海量文本数据是自然语言处理的核心。词语相似度被广泛应用在信息检索、机器翻译、智能教育等领域。短文本匹配是自然语言处理的一项更重要的技术,在中文句子中,文本由词语组成,词语相似度计算与文本相似度计算属于递进关系。本文的主要工作如下:《知网》的词语相似度计算方法很少利用词语的信息内容含量,大都是通过义原的上下位关系构造义原树,再基于义原之间路径信息的计算方法。而基于信息内容含量的方法没有考虑义原密度信息对信息含量的影响。因此本文基于义原结点信息内容含量的方法并引入义原密度信息来计算相似度。针对哈工大的《同义词词林》扩展版的拓扑结构存在不合理的方式,词林无法区分抽象概念与具体概念的问题,因此本文使用的是修订拓扑结构后的《同义词词林》。修订后的结构与《知网》类似,本文在词林相似度计算的方法上考虑了路径信息来计算词语相似度。最后结合的《知网》与《同义词词林》的计算结果,本文提出的方法,能够得到更符合人类主观判断的结果。中文短文本匹配任务中,针对中文短文本分词、去停用词后文本信息的丢失,需要充分利用现有的文本信息的问题。本文提出了一种基于多粒度语义嵌入的多语义交互句子匹配模型(MSIM)来解决中文短文本匹配问题。首先,将每个句子对表示为多粒度嵌入:基于一个独热向量的字符嵌入和基于预训练模型的词嵌入。此外,为了更充足地捕获充足的交互语义特征,本文提出三个方式交互句子信息,不仅对两个编码后的句子的每一个时间步信息进行匹配并做平均池化与最大池化操作,还将每个时间步与注意力表征计算差值与按元素乘积进行深层次交互。目的是对交互的句子对充分提取其差异与关联特征。本文的方法在中文数据集CCKS和ATEC上进行了评估。实验结果表明本文的模型该充分利用了中文短文本信息,提高了文本短文本匹配的效果。
其他文献
随着人工智能和大数据的发展,基于深度神经网络的文本分类技术在现实中的应用越来越广泛,比如情感分析、新闻分类、垃圾邮件分类等。这些文本分类模型在遇到对抗攻击时,其性能会显著下降并引起了人们的关注和研究。通用对抗攻击只需向任意输入添加一个固定的扰动序列,就可以成功地愚弄文本分类模型,而且可以在短时间内对其发起大规模攻击。现有的通用对抗攻击会无差别地攻击所有类别的文本样本,这很容易引起防御系统的注意,同
学位
随着社交平台的迅速崛起,各种短文本信息丰富着人们的生活,如微博、知乎和推特等,用户常以文字为主体分享自己感兴趣的事物。因此学者们可以从中发现用户感兴趣的主题信息,并将它们应用于实际项目中。目前大多数主题模型都是针对长文本数据,而在短文本的应用中,由于文本稀疏问题导致实验效果并不理想。为了克服短文本数据集的稀疏性问题,双词主题模型(Biterm Topic Model,BTM)将文本中提取出的共现词
学位
随着互联网技术的急速发展,人们迎来了大数据时代,数据类型更为复杂,体量更为庞大。大数据不仅为企业带来了多样化的商业价值,同时也为存储行业带来了巨大的挑战。因此,以分布式存储技术为核心的云存储,以效率高、收费低的优势占据存储市场。但无论是当前主流云存储系统,还是传统的数据存储系统,都无法避免存储大量冗余数据的情况,尤其在归档或备份系统中,冗余数据能占到存储总量的70%,冗余存储极大地提升了存储成本。
学位
由于测量误差及各种干扰因素的客观存在,数据采集过程中会不可避免地引入各种形式的噪声。为了抑制噪声的影响,本文从以下两个角度展开了图像鲁棒特征的研究。其一是针对特定图像设计鲁棒特征,利用其特有的性质消除或减少噪声的影响。其二是设计通用的图像模型,学习图像数据的鲁棒表示特征,从而重建无噪声图像或目标图像。基于这两个出发点,本文对主成分分析(Principal Component Analysis,PC
学位
良好的情绪调节,是个体适应现代社会的重要先决条件,特别是对于初中阶段的女生而言,她们时常出现一些情绪问题。为此,加强培养学生智慧调节情绪的能力具有十分重要的现实意义。基于此,本文结合个案,多管齐下进行分析和探究,提出初中女生智慧调节情绪问题的策略,以供借鉴与参考。
期刊
利用三次经济普查数据、上海市统计局数据及教育部开发的"全国中小学生校外培训机构管理服务平台"等搜集上海在校中小学生数及校外培训机构数的变化;利用问卷星采集学生、家长及培训机构等关于校外学习的看法等。从调查发现,从2004年到2018年,上海在校中小学生总数保持平稳,而校外培训机构数有一个持续上升的过程,尤其是2008年到2013年,校外教育培训机构总数上升133.45%,是一个井喷式发展。同时发现
期刊
该项目以某优选的生鲜团购配送为例,在考虑各项约束的基础上,以生鲜配送中心点到各个小区的总配送路程最小为宗旨,利用回溯法选优搜索出生鲜配送的中心小区,配送中心选址可有效地降低社区团购的运营成本及物流度等等。然后就小区的生鲜团购配送的路线方面,结合实际,采用模拟退火算法建立模型,求解出生鲜配送的最优路径。优化后的路线能够提高配送效率,节省配送费用,节约人力、物力、财力等资源。
期刊
随着互联网的快速发展,不断涌现出诸如数据流处理、增强现实等对计算资源以及时延能耗要求比较高的应用。用户设备(User Equipment,UE)由于本身物理资源的限制,通常以高时延和高能耗为代价来处理这些任务。移动边缘计算(Mobile Edge Computing,MEC)的出现,不仅为UE提供了低延迟的计算服务,还延长了UE的电池寿命,但是MEC服务器的计算资源通常是有限的,如何高效地分配UE
学位
近年来,机器学习发展迅速,尤其是在自然语言处理领域取得了重要的突破。文本分类是自然语言处理中的一个重要研究领域,其中层级多标签文本分类发挥着重要作用,广泛应用于许多任务中。在层级多标签文本分类任务中,层级结构定义了标签之间的隶属关系,这使得标签之间不再独立,增加了文本分类的难度。层级多标签文本分类任务通常会面临文本特征提取困难、标签的层次结构信息无法被有效利用等挑战,为了提升层级多标签文本分类任务
学位
<正>华电国际邹县发电厂锅炉队吹灰器班全体职工共计9名,负责全厂1461台蒸汽吹灰器、声波吹灰器等设备的检修及维护工作。近两年以来班组在设备管理模式上积极探索、大胆实践,逐渐摸索出一个适用于“人员少、设备多”班组的“1+2+N”设备精益管理模式,即一个核心、两条路线、全员参与的模式。班组的设备管理从被动到变主动,不仅提高了设备稳定性、减轻了班组检修负担,还使职工精神风貌从消极变积极、职工收入从低变
期刊