面向视角的文本语义分析方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:aramis_Rose
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
获取文本语义是大部分自然语言处理研究的最终目的。文本语义是指文本信息所包含的真实意义,文本语义分析通过建立模型使计算机能够模拟人类对自然语言的深层语义进行理解,识别信息中所包含的真实含义。获取文本的真实语义有助于提高各种自然语言处理顶层任务的处理效果,如机器翻译、问答系统、对话机器人等。语义分析过程中,当数据分布不平衡时,文本语义特征提取尤为重要,如何做到不忽略小类别的特征是亟待解决的问题。在语义关系识别任务中,中文句间关系多为无连接词的隐式关系,其识别是语义关系分析的难点。针对篇章长文本,提取中心语义,并生成可读性高的摘要具有重要意义,但是目前抽象摘要自动生成任务的完成效果仍有较大提升空间。本文以不同的研究任务为视角,针对文本语义分析中的难点,提出了基于深度神经网络的文本语义特征提取、语义关系分析与语义理解模型,研究内容和创新点如下。1.面向长文本分类视角的文本语义特征提取模型。针对数据分布不平衡问题,以长文本语义分类为研究视角,研究了叙事性长文本事件提取方法,提出了基于深度学习的长文本特征提取模型CRAFL。该模型首次将残差网络应用于长文本语义分析中,并通过增加损失函数中类别的高斯权重解决了数据分布不平衡问题。模型结构方面,首先,输入文本经词嵌入转化为向量形式的文本表示。其次,带有注意力机制的残差网络从文本表示矩阵中学习文本语义特征,并降低特征矩阵维度。再次,循环神经网络进一步学习序列深度语义特征。最后,通过改进损失函数,增加中小类别的权重,缓解了各类别分布的不平衡。实验部分,在四个公开数据集上的实验结果表明,CRAFL模型在长文本分类上的效果优于基线模型,在案件描述文本数据集上,CRAFL模型的宏平均F1值达到89.0%。2.面向句间关系分析视角的篇章语义关系分析模型。本文针对中英文语义关系分析研究中的差别,以中文隐式篇章句间关系识别为研究视角,提出了篇章语义关系分析模型BERT-Tree。中文隐式句间关系无明显的连接词,只能通过语义分析来识别句子间的关系,BERT-Tree模型能够分析中文句子语义,识别句间隐式关系。该模型基于预训练方法与树型语义框架,首先,将具有语义关系的两个句子文本分别输入到预训练语言模型中形成文本特征矩阵。融合所得的两个句子特征,形成句间关系特征。然后,针对关系类别的层次特性,使用树结构的语义框架识别句间语义关系。实验部分,在两个中文篇章语料库上训练与测试模型,BERT-Tree模型结果均超过了基线模型,在CDTB数据集上的宏平均F1值达到54.3%。3.面向自动抽象摘要生成视角的篇章语义理解模型。本文针对篇章语义理解,以自动摘要生成任务为研究视角,研究了文本语义理解方法,提出了一个自动文本摘要生成模型BSSA。该模型能够不经过繁复的数据预处理,将输入的篇章文本直接转化为摘要输出。所提出模型与其他研究的不同之处在于将文本预训练方法融入生成模型中,并在序列生成中增加了注意力机制。首先,模型在序列生成之前通过预训练方法对文本进行特征学习,生成文本的特征表达,挖掘文本深层特征,获得篇章文本语义。其次,将注意力机制引入到序列生成过程中,增加重要特征的权重,并在结果中突出篇章文本特征。最后,通过解码过程生成文本摘要。实验部分,本文在多个篇章数据集上对模型进行了测试,实验结果证明BSSA模型获得了良好的效果,在CSL数据集上RL指标达到35.1%,超过了所有基线模型,模型的各部分对模型整体效果起到支持作用。实验证明文本提出的模型在文本语义特征提取、语义关系分析与语义理解的相应任务的研究上取得了进展。
其他文献
第六代移动通信系统(6th Generation Mobile Communication System,6G)作为5G通信的延伸,对通信距离、通信容量等提出了更高的要求。天线作为无线通信系统的关键器件,负责发射和接收电磁波能量,其性能直接影响着通信质量。高增益阵列天线及携带轨道角动量(Orbital Angular Momentum,OAM)的高聚焦涡旋电磁波天线在提高通信距离、信道容量等方面具
近年来,随着数据资源的日益丰富,机器学习模型逐步被用于发现隐藏的数据模式和趋势,并且已经广泛应用于很多领域,如医疗、金融、营销等等。虽然机器学习模型具有一定的应用广泛性和优势,但仍有一些人由于对模型的理解及经验不足等原因,对机器学习模型的使用持消极态度。这表明人们在使用机器学习模型时还存在许多障碍。对高预测准确率的追求导致许多机器学习模型都异常复杂,表现出黑箱特性,黑箱模型的可解释性较差是阻碍用户
在区块链技术驱动下,私人数字货币登上历史舞台并蓬勃发展。从演进历史来看,货币历经了“商品货币金属货币—法定货币—数字货币”的发展阶段。其中,从法定货币到数字货币是一次“惊险跳跃”。作为数字货币的重要构成,私人数字货币具有超越非数字货币的优势,即它以区块链技术为架构核心、以分布式账本为交易前提、有利于推进货币的国际化。虽然私人数字货币的发展极大地刺激了金融创新,但是其衍生的金融风险、技术风险与法律风
水文气象系统是一种复杂的、动态变化的循环系统。受到气候变化、人类活动等多方面的影响,水文气象过程在时间上表现出非常明显的非线性、非平稳性、多尺度和随机性等非参数统计特征。深入研究水文气象要素的演变规律,掌握变化趋势,提高预测精度,有利于水资源管理、气候评估和环境保护。因此,基于非参数统计的水文气象要素的变化趋势分析及其预测研究具有理论与应用研究意义。论文系统研究了国内外关于非参数型趋势分析方法的研
球形机器人凭借其特殊结构与运动方式带来的可靠性、灵活性以及低能耗特点,与传统移动机器人相比具有更大的发展潜力。随着当前机器人领域的快速发展,不断复杂化的任务环境需要球形机器人在面对不同任务需求(如长续航能力、高运动灵活性等)时具备多样化适应能力,然而相关能力的欠缺成为球形机器人发展的主要制约因素。摆式偏心力矩驱动机制是研究广泛的球形机器人驱动机制,重摆周向运动使球形机器人质心周向改变是其驱动原理。
垂直腔表面发射激光器(VCSEL)由于具有诸如低功耗、低成本、单模特性优异等优点而被广泛应用于光通信系统中。经过多年的研究和开发,VCSEL技术也逐步进入到了其他的应用领域。近年来,随着苹果公司将VCSEL引入到手机的面部识别模块中,基于VCSEL的3D感测技术引起了越来越多的来自企业和研究机构兴趣。然而,新的应用场景也对传统的VCSEL技术提出了几大挑战。首先,随着互联网技术发展的日新月异,接入
乳腺癌是影响全世界妇女健康的主要恶性肿瘤,发病率位居女性恶性肿瘤之首,针对乳腺癌的研究具有巨大的社会学及医学意义。目前,乳腺癌诊治常用的标志物有限,更多有意义的标志物需要被筛选出来。传统用于标志物筛选的实体瘤组织样本中,除了癌细胞以外还存在正常细胞等干扰“杂质”,影响了标志物筛选结果,许多患者也无法随时获得其组织样本,实施动态监测与筛选。由于肿瘤细胞生长迅速,细胞之间的黏合力较低,大量肿瘤细胞会发
随着移动通信技术的不断发展,通信系统终端设备数目与各种数据业务的资源分配需求呈现爆炸式增长,这给网络资源有限的第五代通信网络(5th Generation Mobile Networks,5G)带来了 巨大的挑战,同时进一步增加了 5G网络资源优化的复杂性。首先,当前的移动通信网络正处于由第四代通信网络(4th Generation Mobile Networks,4G)向5G网络转变的特殊时期,
光网络正朝着更大容量、更高谱效、更加动态灵活的方向快速演进,弹性密集波分复用(Flexibel Dense Wavelength Division Multiplexing,F-DWDM)光网络由于其资源利用灵活高效、连接动态可变的特点,成为主流技术方案之一。随着F-DWDM光网络架构变得愈发复杂庞大,波长连接变得更加动态灵活,更加需要与之相适应的监测手段以保证光网络稳定高效运行。特别是F-DWD
赛什塘铜矿是东昆仑地区最具代表性的、开发程度最高的铜矿床。本文在充分收集并总结前人研究成果的基础上,开展了系统的岩石学、岩石地球化学、矿物学及矿物化学、成岩成矿年代学、流体包裹体测温及稳定同位素等方面的研究工作,确定了岩石成因及物质来源、矿床成因与成矿机制,揭示了赛什塘铜矿形成的构造背景。赛什塘铜矿矽卡岩及矿体产于石英闪长岩与围岩地层接触带。对成矿地质条件的重新梳理表明,石英闪长岩由内部相中细粒石