定义问答检索关键技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:slayerwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答式信息检索(简称问答检索)是信息检索领域的一个重要研究方向。定义问答检索是问答检索的一个重要分支,其根据指定的目标概念,从开放领域(或指定)的文本中检索得到该概念的释义文本。由于概念的种类及其属性繁多且描述概念的方式较多,造成对其进行描述的释义文本形式差别巨大,从而使得当前定义问答检索方法对释义文本的识别具有一定困难。当前方法以孤立语法标识为特征的对释义文本进行形式化不利于释义文本中释义语义的表示和计算,因为其形式化过程没有涉及到语义内容。不同种类概念及描述方式之间的差异造成释义文本的语言形式差别大,以所有定义样例为基础的学习及模式匹配的识别率低。传统的基于统计分析方法的定义识别中未能有效地计算语义特征在学习语料中出现的模糊性,降低了定义的识别率。当前定义问答检索的传统评价主要基于人工方式,一些基于自动评价的算法的形式化只以词汇为基础,没有考虑答案文本的语法和语义特征,从而降低评价语义上的准确性。针对释义文本中语义内容形式化问题、候选答案的评分过程中识别率低的问题、语义计算过程中涉及模糊性的问题和定义问答检索方法自动评价中的语义问题,本文探索使用释义内容单元(ECU)形式化释义文本,并将基于案例推理的消极学习法应用于定义评分过程,然后使用云模型进行候选答案评分,最后在定义问答检索方法的自动评价过程中使用金字塔模型。归纳起来,本文的主要创新成果包括:①提出了基于案例推理的定义问答检索方法。在文本检索领域,基于案例推理的学习方法通常用来处理复杂的文本检索问题(如法律案例检索)。因此,本文首次将其用于定义问答检索。本文首先将概念的释义文本进行依存语法解析获得其句法树,然后根据释义元语言将句法树转换为释义内容单元作为释义文本的形式化表示,从而构建定义案例。该方法检索与候选答案(查询案例)相似的定义案例集合,然后使用该集合对候选答案进行评分,减少相关性较低的定义案例对评分的影响。通过BCU-ECU方法增加案例检索过程将其构造为BCU-CASE方法,实验对比BCU-CASE、BCU-ECU和DT基准方法的F值的宏平均。实验结果显示,BCU-CASE比DT提高24%,BCU-CASE比BCU-ECU提高6%。基于案例推理的定义问答检索方法有效,且优于DT,其能改善一般基于统计分析的定义问答检索方法的性能。②提出了基于云模型的定义问答评分算法。自然语言的不确定性,尤其是模糊性和随机性一直是自然语言量化过程需要解决的主要问题,云模型通常用于量化自然语言的模糊性和随机性,因此,本文首次将其用于定义问答评分。本文以定义案例的释义内容单元为基础建立云模型的定量论域,然后将查询案例的释义内容单元作为云滴计算其特征值,以特征值为基础计算查询案例的评分值。通过将BCU-CASE方法的案例识别阶段的算法替换为该评分算法从而获得CLOUD-CASE方法,实验通过对比CLOUD-CASE、BCU-CASE和DT基准方法的F值的宏平均。实验结果显示,CLOUD-CASE比DT提高27%,CLOUD-CASE比BCU-CASE提高3%。基于云模型的定义问答评分算法有效,且优于DT,云模型具有优于基于统计分析的案例识别性能。③提出了基于释义内容单元的释义文本形式化方法。本文首先利用依存句法树结构的层次性句法和释义元语言对释义文本进行分析,获得用于释义的单元结构。实验基于BCU方法使用释义内容单元对句子进行形式化从而构建BCU-ECU方法。实验结果显示,BCU-ECU与DT基准方法的F值的宏平均,前者比后者提高18%,释义内容单元形式化有效,且能够改善定义问答检索方法的性能。④提出了基于金字塔模型的定义问答检索的自动评价算法APDQE。在自动摘要的评价领域,金字塔算法已经被用来作为评价的标准之一。因此,本文首次将其用于定义问答的自动评价。为了建立金字塔模型,本文以标准答案的释义内容单元为基础建立金字塔,然后获得被测答案中每个释义内容单元的权重值,最后计算出标准答案的得分。实验通过APDQE、POURPRE和人工评价不同定义问答检索算法的输出结果,以此基础计算APDQE和POURPRE分别与人工评价结果之间的判定相关系数R2,APDQE比POURPRE提高7%,实验结果显示APDQE有效且略优于POURPRE。
其他文献
<正> 珠心算教学源于珠算教学,且高于珠算教学的一种创新教学。我市振兴小学开展珠心算教学两年来的实践表明,珠心算是我国数学运算史上的新突破,这种教学培养了学生的综合能
近年在经济全球化的浪潮下,外资并购的迅速扩展对我国经济发展的影响愈发深远。这尽管对我国经济起了一些积极作用,但其消极的效应也逐渐凸显且不容忽视。本文试从我国外资并购
学前期是幼儿社会性发展的关键时期,幼儿根据社会期望和要求调节他们的行为,并将社会价值观和规范内化,服从在儿童社会化中发挥的关键作用。幼儿不服从行为对幼儿发展产生负面影响。教师作为幼儿生活中的重要“他人”,在应对幼儿不服从行为时所使用的策略直接影响幼儿社会性的发展。本研究从武汉市A园中随机选取三个大班为观察班级,并将每个班级中的三到四位教师及幼儿作为观察对象,主要采用自然观察法,对幼儿的不服从行为及
马克思恩格斯在《共产党宣言》中阐述了无产阶级政党特性思想的科学内涵,包括利益的一致性、理论的科学性以及党员的优质性。中国共产党在坚持马克思恩格斯无产阶级政党特性思
结直肠癌作为高发的恶性肿瘤,国际医学界一直致力于结直肠癌的治疗研究。恶性肿瘤靶向治疗药物的问世,结直肠癌也开始应用靶向药物进行治疗,临床治疗显示,KRAS基因突变与用于
禅宗的话头"干屎橛"与庄子的"道在屎溺"形似而实异.本文从逻辑结构和语法句式开始分析二者区别,辨析禅宗"干屎橛"与破僧人的执著、而道"在屎溺"是对"道"存在性的说明,同时着
近些年国内旅游业有了长足的发展,但是在旅游业迅速猛发展的同时,旅游纪念品处境尴尬却是不争的事实。然而旅游纪念品市场蕴藏着巨大的商机,如何振兴旅游纪念品产业,丰富旅游的价
为降低产品几何规范在设计、制造和计量过程中的不确定性,并适应制造业的信息化、标准与计量的数字化,新一代产品几何规范(New-generation GeometricalProduct Specification
表达式处理一直是研究的热点,因其结构复杂、含义丰富、形式多样,相关研究面临诸多困难。随着移动设备的日渐普及,联机手写输入方式为表达式处理提供了时序分析的新方法。该
小波和滤波器的构造以及具有良好相关特性的序列设计是信息处理中的两个重要问题.小波和滤波器主要用于图像压缩、信号估计和数字水印等工程实际问题,而良好相关特性的序列主