基于序列标注与词义消歧的语义信息提取方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:zhjic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息的爆炸式增长促使了自然语言处理技术的发展,如何高效地从海量的文本数据中提取出有用的语义信息是目前研究的重点与难点问题。结合自然语言本身的特点,本文从序列标注和词义消歧两个方向展开研究并提出相应的改进方法,主要工作及研究内容如下:(1)研究基于序列标注的语义信息提取方法。传统的利用Bi LSTM的单词级序列标注方法通常忽略了字符中的语义信息,同时这种顺序处理输入序列的方式会限制捕捉句子内非连续单词之间依赖关系的能力,容易造成长距离语义信息损失的问题。针对这些问题,本文提出基于注意力机制的字符级序列标注方法,以字符作为模型输入的基本单位,利用注意力机制捕获字符中重要的词缀信息和特征,生成增强了单词级表征能力的词向量;利用多头注意力机制建模句子中任意两个单词之间的语义关系,减少序列化特征学习的限制,得到更丰富的语义依赖信息,并通过实验验证了模型的有效性。(2)研究基于词义消歧的语义信息提取方法。基于主题模型的词义消歧方法虽然得到了文本的全局语义信息,但是却忽视了词义本身的信息和歧义词所在的上下文对消歧的影响。本文针对这些问题提出了基于语义关系与双通道主题模型的词义消歧方法,一方面利用Word Net中同义词集的信息对歧义词各义项进行语义关系建模,拓展词义注释,并与上下文进行相似度计算;另一方面分别将Word Net同义词集信息和歧义词紧邻实词作为主题模型的两个不同的输入,构建双通道主题模型,获得文本的深层语义信息。最终将词义信息和主题信息融合起来,共同解决消歧中出现的偏差,提高语义信息提取的准确性。(3)针对现有的神经机器翻译无法学习到单词语言学信息的问题,将序列标注模型中提出的方法用在神经机器翻译中,通过将序列标注解析到的词性信息融入到翻译系统中,提高神经机器翻译的准确率;由于统计机器翻译中单词的翻译是影响翻译质量的关键问题,将基于语义关系与双通道主题模型的词义消歧方法用在统计机器翻译中,提升基于短语的统计机器翻译的效率。实验表明,本文提出的改进的语义信息提取方法在机器翻译领域有较好的实用性。
其他文献
本文以2012—2020年中国A股上市企业为研究样本,实证分析不同生命周期阶段的数字化转型对企业价值的影响。研究结果表明:(1)随着生命周期的推移,数字化转型与企业价值之间呈现先上升后下降的倒U型关系,且数字化转型不能显著提高衰退期企业价值;(2)数字化转型通过技术创新和业务创新影响成熟期企业价值,且数字化转型仅通过技术创新影响成长期企业价值;(3)数字化转型对国有企业和高市场化地区企业价值提升的
期刊
随着计算机的飞速进步和互联网的迅速扩张,人工智能、大数据和5G技术在2015年到2020年期间取得了巨大的进展。伴随着这些高科技的发展,用户在各种计算机终端设备上,访问的信息形式发生了由文字到音频、音频到图像、图像到视频的巨大转变。在图像的采集和传输过程中很容易会受到多种不同原因的影响而使得图像的质量变差的情况。为了缓解这些因素对图像的影响,更加先进的图像去噪技术迫切需要被提出。本文以图像去噪为基
学位
随着近年来生物测序技术的迅速发展,基因数据井喷式增长,测序在生物信息学研究中扮演了重要的角色。在育种实践中,由于样本规模较大,高密度的测序数据获取成本较高,通常会采用高低密度测序混合的方式来获取基因型数据,分析计算时再利用基因型填充工具将低密度数据填充为高密度数据以获得更准确的选种选配结果。基因型填充主要是利用缺失位点与附近位点的遗传连锁不平衡特性来推断缺失值。传统填充方法大多是基于隐马尔可夫模型
学位
近年来少样本学习受到了很多关注,它旨在从少量有标签训练数据中实现快速学习和泛化。少样本图像分类作为少样本学习的主要分支,它的目标是在每个类只提供单个或几个训练样本(支持样本)时学习一个分类器以识别测试样本(查询样本)的类别。在少样本学习中应用元学习的思想可以帮助模型在相同类型任务之间迁移有用的元知识,一定程度上减轻样本量少带来的问题。但是少量样本带来的信息十分有限仍不足以充分表示一个类别。在元学习
学位
随着互联网新闻资讯数量的急剧增长,用户常常会面临巨大的阅读障碍,难以及时且准确地知悉新闻资讯的主要内容。在此背景下,为了满足用户快速获取新闻概要的需求,对大规模新闻资讯进行智能化概述,开展文本自动摘要技术的研究尤为必要。本文以大规模新闻数据集为研究语料,以增强生成摘要包含的主题语义信息为主线,分别开展了抽取式自动摘要、生成式自动摘要以及生成式模型训练优化等方面的改进研究工作,最终采用“先抽取,再生
学位
随着全球移动数据流量呈爆炸式增长,移动视频将成为移动网络中最主要的服务之一。边缘缓存技术将内容存放在更接近用户的网络边缘端,能有效降低请求延迟和网络负载。现有的边缘缓存工作主要从系统或用户的角度展开研究,旨在减少传输延迟、降低系统能耗和提升用户体验等,但移动视频服务的主体是内容提供商,较少工作考虑内容提供商的缓存经济成本。为此本文从内容提供商的角度对视频边缘缓存问题展开了深入研究,主要包括:多个内
学位
数字化转型对企业绩效的影响机制是近年来学界和业界关注的重要议题。本文针对这一领域的研究成果,首先对数字化转型的概念内涵以及其与企业绩效关系的理论依据进行系统评述;其次,归纳数字化转型对企业绩效的直接影响,如促进作用、抑制作用、曲线效应,以及数字化转型与企业绩效关系的情景因素和中介变量;最后,提出未来研究方向,包括数字化转型行为的演变规律及对企业绩效的动态影响机制、数字技术和商业模式变革对于提升企业
期刊
给定一张未化妆的源图像和一张任意妆容的参考图像,妆容迁移目标是生成一张新的图像,该图像具有参考图像口红、眼影、腮红等妆容信息,又保留源图像人物身份、表情、姿态以及背景等内容信息。因其广泛的应用场景和巨大的市场需求,妆容迁移得到了越来越多的关注和研究。在妆容迁移任务中,主要有两方面的内容需要学习,一方面是建立源图像和参考图像之间的语义对应关系,另一方面是提取参考图像的妆容信息。现有的妆容迁移算法利用
学位
场景图像中的文字包含丰富的高层语义信息,精确检测场景文本有助于感知和理解图像,文本检测一般采用基于目标检测和基于语义分割的方法。基于目标检测的文本检测方法大多依赖于锚策略生成文本候选区域框,但锚定位框依赖于人工设定,不能很好的满足自然场景图像不同尺度、形状和方向文本的检测问题,而且会产生大量重复检测,影响检测精度和效率。另外,此类方法学习的是单词或文本行级的特征,无法获得字符级特征以及拟合曲形文本
学位
行人再识别是利用计算机视觉系统,在图像或者视频集中搜寻给定人物的任务。任务特点是该人物会从一台相机的视野中消失,然后出现在另外一台与前述相机无重叠视野的相机中。行人再识别已经被广泛应用于社会安保和安防中。目前大多数的研究工作专注于可见光条件下的彩色图像。然而在光线不足的情况下,传统彩色相机的成像是无效的。为了解决光线不足导致彩色相机无法成像的问题,红外相机成为了一个可替代的方案。基于红外相机的成像
学位