文本问答与信息抽取关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:bbaaccd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本问答通过理解问题的自然语言描述并依据不同形式的知识源给出问题的答案,这是自然语言处理领域中最具难点的挑战之一,一直受到学界和产业界的广泛关注和研究。尽管过去几十年的研究取得了很大的进展,文本自动问答系统在语义理解、文本生成等方面仍然面临一些尚未解决的问题,比如对于复杂的自然语言问题的语义理解仍比较困难;用于无结构化问答的文本生成技术在语义一致性、信息多样性等质量属性上存在不足。另一方面,海量的知识是增强问答系统智能的关键,而知识图谱正在成为结构化知识表示的一种重要形式,能为知识提供更加完整和规范的语义化描述,因此,如何从大数据量的网络文本中有效构建和更新结构化知识图谱从而更好地支撑文本问答系统,也是问答系统所面临的一项重要挑战。针对上述问题,本文研究了不同数据支撑的文本问答系统的关键技术:基于结构化知识图谱的问答、基于无结构化文本的问答中的文本生成技术。同时本课题还关注结构化知识图谱构建,对信息抽取技术进行了研究。论文主要内容和贡献如下:第一,在基于结构化知识图谱的自动问答方面,本文提出了基于关系判别和语义解析的两种问答方法。针对已有的简单问题的关系判别方法的语义表示问题,提出了一种融合子图信息表示的关系判别方法;针对已有的语义解析方法对复杂问题建模困难和可解释性低的问题,提出了一种基于文本空间问题分解的层次化语义解析方法,首先将复杂问题分解为子问题序列,而后抽取子问题序列中的关系信息和语义聚合类别,最后在已有信息约束下生成对应的逻辑表达式。所提出的复杂问题语义解析方法因具有显式的证据推理路径提升了结果的可解释程度。实验表明这两种方法分别提高了问答系统对于简单问题和复杂问题的理解与回答能力。第二,在无结构化文本的问答方面,针对序列到序列的文本生成技术在文本摘要和关键词提取的不足,提出了两种改进的模型。针对序列文本摘要方法与预训练双向语言模型的不适应性,本文提出了一种“草稿-精炼”结构,以补充双向语言模型需要的语境上下文;针对关键词提取对文档编码表示和关键词关系建模的需求,提出了一种能够提升关键词序列多样性的结构。该结构包含一个使用全局信息传递机制的动态图句法编码器,以及一个无需修改训练过程的多样性推断算法。在两项任务对应数据集上的实验显示,所提出的结构在文本生成的流畅度、语义相关度、多样性等质量指标上都有显著的提升。第三,在面向知识图谱构建和补全的信息抽取技术方面,针对已有方法所面临的噪声标签问题,本文提出了两种噪声鲁棒学习方法。针对细粒度实体分类问题,我们提出了一种基于伪标签分布估计的标签自修正模块,并使用多轮学习机制来充分发挥伪标签估计的效果;针对同义词挖掘问题,我们在已有基础模型上使用成对字向量增强实体语义表示能力、使用基于辅助学习器和交替优化的鲁棒学习框架减少噪声标签的影响。在这两个问题上所提出的噪声学习方法都与具体任务和模型无关,并只依赖很宽松的先验假设,因此具有很强的灵活性和普适性,可以直接应用于通用领域或垂直领域的信息抽取,为问答系统提供大规模知识图谱支撑。在包含真实噪声(与人造噪声相对应)的基准数据集上进行了实验与分析,结果表明了所提出的方法能够在不同比例的噪声数据上取得显著超过之前方法的效果,辅助实验及分析进一步证明了噪声学习框架的有效性。本文的三项研究内容中,前两项关注如何利用已有的信息源和知识库对问题进行语义理解、智能推理和回答,而信息抽取技术能够用来从无结构化文本中抽取事实信息并建立或完善知识图谱等知识库。本文针对这几项研究内容所进行的实验在若干大规模开放域的任务标准数据集上完成,与之前效果最佳的若干方法进行对比,验证了所提出的方法在不同数据分布下的有效性。本课题所涉及的自动问答关键技术能够应用于搜索引擎、语音助手、客服机器人等场景,具有较强的实用性。
其他文献
光学对地观测卫星是从太空获取地球表面图像信息数据的重要平台,具有成像时间长、覆盖范围广、不受地域国界限制等优势,在自然灾害监测、气候监测、军事态势侦察等领域发挥着举足轻重的作用。随着经济发展和科学进步,越来越多的成像任务需求涌现出来。如何利用有限的卫星资源,合理规划任务需求,完成任务调度,最大化成像卫星的使用效能,是一个非常值得研究的课题。作为新一代光学对地观测卫星,敏捷对地观测卫星具有多个自由度
学位
长期以来,粒子加速和辐射研究不断推动着科学的进步,时至今日超过半数的诺贝尔物理学奖都与粒子加速及其应用有关。传统粒子加速器硕大的体积、昂贵的造价,已经接近经济和技术的极限,因而加速器的应用与推广受到了极大限制。为此,研究人员不断探索新型高效的粒子加速技术,以实现桌面化的小型粒子加速器。与传统粒子加速相比,强激光粒子加速有着以下显著优点:加速梯度大(一般高于传统加速器3个量级以上),产生的离子束脉冲
学位
传统机器学习的一个基本假设是测试数据与训练数据服从相同的分布,然而这一假设往往在实际应用场景中因过于严格而难以成立。近来,以深度学习为代表的机器学习方法在各领域都取得了长足进展,然而人们认为机器学习模型优异的性能依赖于大量的标注数据,而对数据进行标注通常是耗时、费力和代价昂贵的。迁移学习放宽了传统机器学习的基本假设,因而能够利用某些领域(源域)已有的标注数据辅助解决新的领域(目标域)中的应用问题,
学位
电控固体推进剂(Electrically Controlled Solid Propellant,ECSP)是近年来发展的一种新型固体推进剂,在外加电压或电流作用下可实现多次重复点火和燃速的实时调控。基于电控固体推进剂的固体火箭发动机结构简单,无点火器和活动部件,既可以长时连续工作,也可以短时脉冲工作,比传统固体火箭发动机表现出更高的机动性和灵活性,是未来弹箭武器主动力和姿轨控发动机的理想动力装置
学位
星载合成孔径雷达(SAR)层析技术,利用同一目标的多角度相干测量,在高度向上形成合成孔径,从而实现对观测目标的立体三维成像。由于具有高度向分辨率,SAR层析成像能够分辨出叠掩在同一像元内的多个散射元目标,为叠掩目标分辨提供了一种有效的技术途径,是雷达成像领域未来重要的发展方向。目前,星载SAR层析成像技术被广泛应用于军事侦察、地球遥感等多个领域。本文围绕星载SAR层析技术在城区三维成像应用中面临的
学位
电离层是地球高层大气中被电离的部分,其中的带电粒子足以影响电磁波的传播,将导致相位超前、群延迟、色散、法拉第旋转(Faraday Rotation,FR)以及幅相闪烁等效应,势必会对星载合成孔径雷达(Synthetic Aperture Radar,SAR)造成一定程度的影响。随着工作频率下降、带宽以及合成孔径时间增大,星载SAR的成像性能将更容易受到电离层效应的影响。因此,对于低波段星载SAR、
学位
战术移动自组织网络(Mobile Ad Hoc Network,MANET)是在战场环境下由一组自治的设备或者节点组成的即时性网络,具有不依赖基础设施、易部署、无中心、自组织、高动态等特点。对战术MANET进行节点、网络属性的监测与分析在网络安全性分析与对抗等领域具有重要支撑作用。传统的网络可接入、信息内容可解析条件下的监测分析技术必须以接入和解密为前提,应用场景受到极大限制特别是主动式探测式监测
学位
过去的几十年,以社交网络和搜索引擎为典型的互联网技术、新兴的物联网技术等带来了蓬勃增长的视觉图像数据。以机器学习、深度学习等为代表的人工智能技术极大地促进了对图像的认知能力。但爆发式增长的视觉数据分布呈现出显著的复杂性、动态性、隐私性特点,对现有的深度模型、算法、框架提出了更高的要求。因此,本文立足于不同应用场景,从数据分布驱动的角度研究学习系统可以利用的归纳偏置,通过设计新的或者改进现有的深度模
学位
核磁共振陀螺基于原子核自旋在磁场中的拉莫尔进动敏感角速度,被认为是未来高精度小尺寸陀螺仪的主要发展方向之一。核磁共振陀螺一般采用碱金属(如87Rb、133Cs)蒸气与稀有气体(如129Xe/131Xe)的混合气体,角速度信息加载在稀有气体原子核自旋的进动频率上,而核自旋的进动信号由碱金属原子构成的磁力仪来检测。因此在核磁共振陀螺中,原子磁力仪具有重要的作用,其稳定性、灵敏度等指标直接影响核磁共振陀
学位
空基和天基雷达成像系统的侦察能力日益增强,使得高价值目标的部署和机动无所遁形。如何有效控制目标的雷达特征,使其不易被成像雷达发现和分辨,已经成为目标防护领域的关键问题。相对于有源防护措施,依靠电磁调控材料的反射式防护方法具有响应时间快、不易暴露、与天然环境融合等优势,这对于降低高价值目标的发现概率具有重要的意义。本文以人工电磁材料调控技术为主线,以降低高价值目标雷达成像特征为目的,对成像雷达目标特
学位