面向问答系统的段落检索技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:walkman73
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展和广泛普及使得互联网成为人们获取信息和交流信息的重要平台。一方面,互联网的规模呈爆炸式的增长,网络用户借助于搜索引擎等工具,可以方便快捷地从互联网获取信息:另一方面,海量的信息也给用户准确识别和选择有价值的信息带来了困难。因此,如何准确地从Web海量信息中检索或抽取出符合用户需求的信息成为互联网信息处理的重要课题。问答式检索和问答系统(Question Answering System)就是其中一个重要的研究课题,也是研究下一代语义搜索引擎的重要研究方向。问答系统的特点在于,一方面允许用户用自然语言提问而不是关键字的组合;另一方面系统给用户返回的是精确的答案而不是一系列的文档。用户可以精确的表达自己的信息需求,系统则在理解用户需求的基础上做出准确的信息反馈,从而实现用户与系统在语义级别上的信息交互。文档检索模块是自动问答系统的重要组成部分。在通常情况下,系统需要利用一些比较耗时的技术例如自然语言处理、信息抽取和模板匹配等来分析文档,以查找问题的答案。用这些技术去分析文档,系统会付出巨大的时间和空间开销。因此,需要减小处理对象的大小。基于上述原因,段落检索(Passage Retrieval)模块被作为文档检索模块和答案抽取模块的中间模块,加入到自动问答系统中。段落检索是信息检索领域的一个重要的研究问题,现在已经成为自动问答系统的一个关键性模块。论文的主要工作与创新如下:1)分析了文档相关性的评估方法。文档的相关性主要是指字词层面上较为浅层的相关性,因此,经典的文档检索公式不适合直接应用于段落检索。为此,本文分析了问答系统环境下段落检索的相关性,从文档和段落的区别出发,分析了两者在主题、长度和关键字数目等方面的差异,并基于这些差异,提出了适于段落检索公式的基本准则。2)提出一种基于Web的问答式段落检索方法,以适应问答系统的动态性和时效性需求。传统的方法一般是基于问题和段落之间的字词密度特征,这类方法的缺陷在于,由于问题中所包含的关键词数量过少,常常因为匹配失败而使得召回率较低。此外,基于词频和语言模型的检索算法,经常会返回一些不相关的段落。因此本文提出一种启发式查询重写方法来解决这个问题,不再是单独考虑每个关键字,而是以具有搭配关系和约束关系的词汇单元为基础,结合词汇之间的关系,综合计算段落与给定问题的相关度。3)提出一种新的基于多种特征的混合型相关性检索模型。本文研究了词汇相似度、主题相似度和结构相似度在评估问题和段落之间的语义相关性的有效性。首先设计一种基于Web的字词语义相似度的计算方法,并利用该方法对问句和段落之间的词汇相似度进行统计计算;然后采用基于概率语言模型的主题模型对段落和问题之间的相似度进行计算;对于结构相似度,主要考虑两种常见的结构:“Wh-”转移和谓词声明结构,从约束满足的角度来判断问题和段落是否包含了相同的结构约束关系。在上述工作基础上,提出了这三种相似度的有权线性组合的混合型段落检索模型。4)研究了基于段落-段落图模型的答案段落排序方法。该方法不仅考虑了答案段落与问题之间的独立相关性,而且利用段落之间的关系信息建立图模型,从全局上计算段落与问题的语义相关性。由于段落之问存在着关系,段落之间会通过关系相互影响各自与问题之间的相关性,因此,可以利用这种关系修正段落的相关性。考虑到问题类型的多样性特点,本文提出了基于KNN的问题扩展方法。该方法基于多种特征计算问题相似度,在问题空间获取最相似的问题,然后利用相似问题对原问题进行扩展,并基于扩展的问题模型获取候选的答案段落,根据段落的内容特征计算段落-段落相似度,再建立图模型。基于候选段落的图模型结构,利用基于图的排序模型对候选段落的相关性进行重新计算,并用基于学习的方法训练最优的排序参数。
其他文献
左金丸出自于朱丹溪《丹溪心法·火六》的名方,又名回令丸。该名方的原方由黄连和吴茱萸组成,一般做成水丸,伴白汤送服。而现代人的应该方法通常是以水泛的方法炮制为丸剂,或
要求高中生对自己的政治卷面进行分析,许多高中生会很懊恼,多次出错的地方再一次出错,原来有疑惑的地方还是没有能够理解掌握,本来不应该出错的地方还因自己的思维逻辑问题犯错等
目的研究改良Soave术借助腹腔镜治疗新生儿先天性巨结肠的临床疗效。方法选择该院2010年3月至2013年7月收治的68例先天性巨结肠新生儿,分为两组,试验组(34例)住院后经系统检
目的探讨大肠癌患者血清癌胚抗原(CEA)、血管内皮生长因子(VEGF)和基质金属蛋白酶9(MMP-9)的变化及其临床意义。方法选择该院收治的大肠癌患者82例作为观察组,并选择同期该院体检健
现代仪器分析课程是环境科学专业学生重要的专业课程,为了提高教学质量,更好的培养学生分析问题和解决问题的能力,结合虚拟仿真技术、专题化教学体系,我们开展了该课程的应用性课
目前,随着对微泡造影剂研究的深入,超声激励微泡“空化效应”在疾病治疗中的作用越来越受到重视。所谓超声空化是指存在于液态物质中的微小气泡(空化核)在超声场的作用下被激发,气
<正>1项目概况邱德拔医院位于新加坡北部的义顺镇,占地3.4hm2,总建筑面积10.8万m2,建筑高度48m。该项目由新加坡CPG咨询公司进行设计,曾获得过2009年度绿色标志白金奖、2010
从高职广告专业青年教师成长中几个重要的问题出发探讨困扰青年教师成长的原因和应该采取的对策,探讨成为一个在专业上教学上实践上都全面发展的高素质教师应该采取的职业规
小学教数是学生数学学习的重要阶段。数学学习的不仅是书本知识,更多的是对思维能力、计算能力等核心素养的培养。要在小学数学中加强对学生核心素养的培养,促进学生全面发展
机器翻译是自然语言处理的核心课题,统计方法在机器翻译中的应用在近二十年里得到复苏,各种统计机器翻译模型被提出并表现出巨大的潜力。在各种统计机器翻译模型中,目前占主