基于Attention机制与词义消歧的文本处理方法及应用研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:moete
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息爆炸式的增长方式促使了计算机文本自动处理技术的发展,如何高效、准确地获取文本语义信息是目前迫切需要解决的问题。考虑到人类理解句子的过程可以描述为对先验信息的检索及语义概念的整合,因此本文主要通过研究相关计算模型,获取更多的先验知识以及较为关键的信息,从而更加准确地消除词语的歧义并且提取更为丰富的语义信息,主要工作及研究内容如下:(1)研究融合统计特征与事件Attention机制的特征提取方法。针对现有基于Attention机制的双向长短时记忆网络在解决文本分类相关问题时存在增大模型计算量以及损失部分文本语义信息的问题,提出在结构化的事件级别上计算Attention权值的方法。同时,考虑到深度学习模型无法学习文本统计特征的问题,本文在事件Attention权值计算的基础上融入统计特征。实验表明,与现有的模型相比,文本统计特征以及事件结构固有的语义信息提高了文本表示的质量,降低了模型计算复杂度,提升了文本分类的准确率。(2)研究基于双通道LDA主题模型的词义消歧方法。现有的基于LDA主题模型的词义消歧方法多将训练获取的文档主题作为消歧的主要依据,虽然利用了整个文档作为训练语料,但弱化了歧义词本身及其上下文信息对消歧结果的影响,而且存在数据稀疏的问题,可能导致得到的词义出现偏差。针对上述问题,本文提出一种基于双通道LDA主题模型的词义消歧方法,引入当前歧义词的外部知识库(即WordNet同义词集)作为LDA主题模型一个通道的输入,同时抽取多义词的紧邻实词作为LDA主题模型另一个通道的输入,充分利用外部知识,提升词义消歧的准确率。(3)分别研究基于事件Attention机制的神经机器翻译与融入词义消歧的统计机器翻译方法。针对现有的神经机器翻译方法对长句翻译相对不准确的问题,将基于事件的Attention机制应用于神经机器翻译;考虑到统计机器翻译在特定领域的效果相对较优,将基于双通道LDA主题模型的词义消歧方法融入基于短语的统计机器翻译模型中。在本章所选数据集上的实验结果显示,嵌入事件Attention机制的神经机器翻译与融入词义消歧的统计机器翻译提升了翻译的效果,表明本文改进的文本处理方法在机器翻译领域具有一定的实用价值。
其他文献
近年来,城市道路管理部门经常会在某些路段设置一些路障或者标志物,有的是平面图案,而有的是一些立体指向标识。这些平面图案具有高度的立体性和真实性,导致辅助驾驶系统无法判断其真实性,在路面产生突发状况时,很可能因为误判造成严重事故。本文对如何区分道路平面图案与立体目标进行了研究,并给出了一种识别方法。主要研究内容如下:(1)通过学习平面图案和立体目标的区别,利用射影不变量这一稳定特征,将计算机视觉理论
传统的成本性态分析理论认为,企业业务量与成本费用之间是线性关系。该成本性态理论成立的前提条件是企业处于一种理想状态下,但是现实中很多外在因素会对公司成本费用的管理
我国经济发展迈入速度放缓、结构优化和动力转换的新常态阶段,稳增长、调结构、重质量是当前发展的重点。同时,新一轮的科技革新和产业升级蓄势待发,学科多点突破、产业交叉融合的现象日益明显。知识、服务、信息、技术要素的强关联效应和外溢效应推进了产业融合、催生了一批融合型的新产业、新业态、新商业模式,从根本上变革了生产、生活方式。融合深化模糊了三次产业的边界,赋予了产业结构升级新的特征。本文探索产业融合深化
在信息总量爆炸式增长的背景下,互联网用户需要更快捷的方式从海量的信息中获取有价值的一部分,而问答系统就是可以完成这种任务的工具之一。目前,问答系统在诸多场景下都得到了应用,开放领域的问答系统可以作为一个强化版的搜索引擎,对用户输入的问题作出准确回答。同时,在各个领域的客服系统中,问答系统也有着广泛应用。相比于雇佣人工客服的方式,部署在线问答系统可以有效降低人工成本,同时能够保持长期在线。与此同时,
随机森林作为一种组合分类技术,因其抗噪声能力强、易于并行化等诸多优势被广泛应用于人工智能、机器学习、模式识别等领域。但随机森林在模型建立过程中优劣程度不同的子树
研究已经表明在推荐系统中的评分不是随机丢失的。然而,很少有研究去揭示评级是如何缺失的。在本文中,我们提出了一个可能的解释去揭示缺失非随机现象,即沉默螺旋理论。我们使用一系列不同的现实数据集去验证了推荐系统中的沉默的少数群体存在一个螺旋式过程。其中包括:(1)相比于持有多数意见的用户群体,意见落入少数意见的用户群体更不可能给出评分;(2)由于多数意见逐渐变得更具主导地位,多数意见的持有者的评分可能性
近年来,随着中国对外开放不断深化,国际传播能力不仅是扩大中国国际影响力的重要支撑,也成为中国开展国际合作的重要抓手。国内传媒机构积极探索中国国际传播能力的发展,利用国际传播一方面能扩大中国对世界的影响力,另一方面也能加强中国与其他国家在更多领域中合作,特别是在涉华议题的国际传播,为其他国家更好了解中国、展开国际合作提供窗口。通过对国际传播现状进行分析,本文认为在当前国际信息流动中呈现出一些与“二级
现今人们在社交网络如微博上进行频繁的社交活动,根据用户喜好的相关性可将用户分为多个群组。推荐系统通过对收集用户和物品的相关信息进行分析和挖掘,能够有效地帮助用户过
随着移动互联网的发展,大量电商平台崛起,线上购物成为了越来越多人喜爱的购物方式,线上购物不仅带来了便捷,更有价格上的优势,电商平台经常会进行降价促销,除去基本的秒杀,限时抢购等活动,更有双十一类型的大流量促销,因此在价格上更需要谨慎,人工审核已不能满足频繁的价格变动,需要系统去应对复杂多变的促销规则。本文以减少线上事故,限制频繁价格变更,提升企业形象为目的,详细描述了营销交易平台价格管控系统的设计
光子晶体,借助特殊的空间对称性实现对电磁波的调控,被形象地称为“光的半导体”。目前研究的光子晶体大多采用具有各向同性本构参数的单元排成阵列,电磁参数单一;以异向介质