论文部分内容阅读
问答系统是信息检索分支,属于精确检索,是国外信息技术的研究热点,但在国内还处于起步阶段。信息检索是信息社会的重要特征,各种检索引擎对人们帮助很大,但是如何使计算机更好地理解人的检索需求,如何获得精确检索结果,这些目前还处于探索阶段,问答系统正是这个方面的重要研究内容。本文系统地介绍了问答系统的研究内容及现状,对中文问答系统与问句处理相关的关键技术进行了较为深入的分析与探讨,实质性工作和创新点如下: 1) 研究中文问答系统的理论框架和系统结构,从总体上对问答系统形成一个较为清晰的认识,对其中的研究重点和难点进行具体的分析。 2) 建立一个小规模的问句句法标注语料库(目前国内在该方面还是空白,没有现成的资源可资利用),在此基础上,研究相应算法,派生出句法截断数据库和句法片段数据库,其中基于截断的片段和片段组合抽取算法具有很高的独创性和实用价值。为高效地建立句法标注语料库,设计研发了一个实用的中文句法编辑与分析辅助系统。 3) 在标注语料库的基础上,根据中文问句在语法语义上的特性,结合现有的语料库理论和方法,应用句法片段技术和语言学中关于句法截断理论,研究出一套基于DOP(Data-Oriented Parsing)的问句句法分析算法,实验表明,与其它句法分析技术相比,准确率有较大提高。 4) 根据中文问句的结构特征,结合文本分类技术中较为成熟的Baves计算模型等,对问句的归类进行处理,建立一个准确率较高的中文问句分类算法模型。 5) 在中文句法标注语料库的基础上,对中文问句句型进行统计分析,研究设计出一个问句句型自动识别和获取算法。 6) 对中文问答系统中的问句形式化处理、形式化扩展、信息搜索、检索结果的分析与筛选等进行具体的分析,并研究相关的实现算法。 7) 对问与答之间的关系作了初步的探讨,提出了陈述句派生疑问句的假设,并研究了各种不同的派生情况,讨论了基于ontology的复杂问题分解,初步分析了简单中文句式之间转换的技术方法和关键因素。