面向表格数据的自动问答研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:w9iij9ijwhr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能问答是自然语言处理领域中的关键任务之一,其目的是为用户提出的自然语言查询自动提供答案。根据面向数据源的不同,智能问答可以分为面向结构化数据的自动问答和面向非结构化数据的自动问答。结构化数据包含知识图谱,表格等。非结构化数据包含自然语言文档,社区中的用户生成内容等。结构化数据相较于无结构化数据,其包含的信息歧义小,易于解析。表格数据属于一种结构化数据,它具有较高的时效性,易于维护且数量巨大。表格数据的上述特点使其通常作为搜索引擎和智能问答系统的重要答案来源之一。此外,由于大多数企业常用表格组织业务数据,面向表格数据的自动问答对于智能问答技术在企业中的落地具有重要意义。本文重点研究面向表格数据的自动问答技术。本文在充分考虑自然语言和表格数据特性的基础上,将研究内容概括为以下四个方面:1.基于表格内容建模的表格检索。对于一些用户提出的自然语言查询,表格数据本身即可作为令人满意的答案。故本文对表格检索任务中的关键技术进行了研究。给定一个自然语言查询,表格检索任务的目的是找到给定表格集合中与自然语言查询最相关的表格。现有研究主要利用表格周围的文本或网页信息来进行表格检索,而没有对表格本身的内容进行充分的探索。为了高效地对表格进行检索,需要解决以下问题:第一个问题是如何有效地表示一个半结构化的表格,第二个问题是如何构建一个良好模型来度量非结构化自然语言查询和半结构化表格之间的相关性。为了解决上述问题,本文在充分对表格和问句的各个粒度进行建模的基础上,提出了一个基于人工设计特征的模型,和一个从数据中进行学习的端到端的神经网络模型。这两个模型都在不同粒度对自然语言查询和表格之间的相关性进行了良好的建模。2.面向表格数据的单轮语义解析。为了用表格数据更精准地回答用户提出的问题,模型需要进一步分析表格数据,在其中找到表格某个具体的值,或者根据表格中的数据进行推理才能输出令用户满意的答案。在这种情况下,模型需要对表格的细粒度内容和问句的关联进行充分地理解并具备一定的推理能力。为了构建具备上述能力的模型,本文采用基于语义解析的方法将用户提出的自然语言查询转化为一种逻辑表达式,而这种逻辑表达式可以在对应的表格上通过现有的引擎执行后直接获得细粒度的答案。具体地,本文提出了一个可以将自然语言问题映射为SQL查询语句的生成模型。该模型通过综合考虑表格的结构和SQL语法来生成高质量的SQL查询语句。3.面向表格数据的多轮语义解析。在一些场景下,用户会对表格进行连续提问。用户的连续提问行为会造成问题语义缺省的现象。对于语义出现缺省的问题,模型需要综合考虑其上文才能准确地理解其语义。为了对面向表格数据的多轮提问进行回答,本文提出了一个可以将用户提出的每个自然语言查询都转化为对应的逻辑表达式的语义解析模型,其中自然语言查询所对应的逻辑表达式可以被执行以获得属于该查询答案。为了提高多轮查询情景下模型对问句的解析性能,本文在建模过程中融入了语法知识,专家知识和外部资源知识。该模型将生成逻辑表达式的过程转化为生成特定动作序列的过程,并通过对前序预测出的动作序列进行拷贝的方式处理了用户提出的一系列自然语言查询中存在的省略和指代等语言现象。4.基于反向翻译和元学习的低资源神经语义解析。在解决面向表格数据的自动问答任务时,基于语义解析的方法极其依赖大量的标注数据。由于针对表格的目标逻辑形式的专业性和复杂性,获得大量的标注数据的代价是非常昂贵的。为了缓解这个问题,本文提出了一个在低资源条件下用于训练面向表格数据问答的语义解析模型的算法。在缺乏问题答案和问题对应的逻辑表达式作为显示的监督信号时,该算法可以在有限数量的先验知识的基础上,利用反向翻译自动生成的训练数据,使用元学习技术按小样本学习的方式有效地训练一个神经语义解析器,从而在缺乏标注语料的情况下提高问答性能。
其他文献
伺服电机系统传动链广泛应用于风力发电、数控机床、重型机械等领域,但实际场合中由其故障带来的设备不能正常运转的现象屡见不鲜。近年来,“智能制造工程”的推进对设备的可靠性及安全性提出了更高要求,可以说电机系统传动链健康监测及故障辨识能力已成为下一代高档伺服驱动器的显著标志之一。因此,故障诊断与健康维护技术也迎来了新的发展契机。基于电机驱动系统的诊断方法,利用电机驱动器自身作为智能传感器,通过驱动系统获
相较于基于硬质材料的传统机器人,采用软材料或柔性结构的软体机器人具有更好的仿生特性、更高的运动自由度和更好的环境适应性,可以在狭窄的空间内运动,并在承受外部冲击后不产生结构及功能的破坏。基于所使用的材料及结构的特点,软体机器人还能够实现自修复、自传感、自组装等功能。已报道的软体机器人大多利用能够产生主动可控变形的智能材料与结构进行驱动。虽然每种智能材料或结构在应用于软体机器人时具有自身的优势,但在
第5代(The fifth generation,5G)移动通信技术为我们的生活和工作提供了高速稳定低时延的通信服务。在第5代移动通信技术中,为了在有限的无线资源情况下,获得更高的通信性能,我们需要采用频谱利用率更高的无线通信技术。多输入多输出(Multiple-Input-Multiple-Output,MIMO)方案是其中一种可以提高频谱效率的核心技术。在MIMO方案中,最重要的技术之一是预编
历史城市可以视作文化景观的一种类型,它不仅是文化和自然两方面价值、属性及特征在“人地互动”过程中层层积淀的产物,更是当下城市居民的生活场所。然而,城市人居环境与其历史意义之间的时空联系被缺乏管控的全球化与城市化进程所割裂,导致地方特色逐渐丧失,人们对城市的归属感和认同感也不断削弱。同时,遗产保护与城市其他方面发展之间的失衡,又使得遗产地居民的生活品质遭受严重影响。进入21世纪以来,“景观方法”逐渐
推荐系统已经广泛地融入到了人们的日常生活,并在改善用户体验、提高企业效益方面发挥着重要的作用。但是,推荐系统普遍采用离线推荐方法,周期性地利用大量用户与物品的历史交互数据训练推荐模型,不能及时地捕获隐含在近期交互数据中的用户最新偏好,难以在流式场景中为用户精确地推荐物品。针对这一问题,研究者们提出了流式推荐方法,利用新接收到的交互数据即时地训练推荐模型,有效地捕获用户的最新偏好,从而在流式场景中提
在高频地波雷达系统中,改善杂波抑制效果、提高目标检测性能的有效手段是充分利用目标与杂波在多个维度上的差异,例如,回波的二维波达方向(direction-of-arrival,DOA)以及极化信息的利用都被证明可以带来显著的性能提升。因此,快速、可靠地估计二维DOA和极化参数至关重要。高频地波雷达背景下的阵列信号参数估计通常面临入射信号相关性强、可用快拍数少等问题,传统算法虽然统计意义明确,但大多要
2019年中国进入了高等教育普及化时代,借鉴欧美发达国家高等教育的发展规律,高等教育空间与设施将成为城市中日益重要的角色,并将进一步突出以使用者为中心的空间营造。同时,我国快速的城镇化进程加剧了对能源和自然资源的超常规利用,在倡导资源节约型和环境友好型社会的总体要求下,针对大学校园的设计、建造与管理,国家教育部发展规划司与住房和城乡建设部提出了以节能、节地、节水、节材为核心的绿色校园设计导则,为大
微纳米尺度力学测试技术的发展对微纳米器件的应用具有重要意义。由于微纳米尺度薄膜材料几何尺寸的限制,以及其力学、物理性质等与宏观块状材料有显著的不同,传统试验方法及测试理论已不能满足其发展需求。纳米压痕技术具有测试分辨率高、试样制备简单等优点,得到研究者的广泛关注,但随着新材料的不断应用,存在测试理论不全面、应用范围窄等问题亟待解决。本论文以完善不同薄膜材料体系的本构模型反演方法为目的,分析凸起效应
中东铁路是19世纪末20世纪初由俄国在中国东北修筑的一条具有殖民性质的铁路,也直接促进中国东北开启了从农业文明向工业文明过渡的现代转型。在转型过程中,西方近现代建筑技术借由俄国之手向铁路沿线地域传播扩散,传统的木质抬梁结构逐渐瓦解,新型的砖混结构、钢结构、钢筋混凝土结构扎根蔓延,同时受东北地域严寒气候环境、社会政治、地形地貌、本土文化等诸多语境因素的直接影响,中东铁路近代建筑技术因材致用、因地制宜
神经机器翻译模型的学习往往依赖大规模的平行语料,然而并不是所有语言对都有充足的平行语料。为了解决神经机器翻译中平行语料缺失的问题,研究人员提出无监督神经机器翻译,通过无监督预训练策略、去噪自编码器、反向翻译和共享潜在表示机制仅依赖于单语语料对翻译任务进行建模。本文针对无监督神经机器翻译,主要研究以下四个方面:1.基于伪平行数据的无监督神经机器翻译及不相似语言对分析。虽然无监督神经机器翻译在一些相似