论文部分内容阅读
自互联网问世以来,越来越多的用户依赖于互联网获取信息。随着互联网技术的普及,存在于互联网上的信息日常膨胀,人们对搜索引擎技术的依赖也日趋增加。通用搜索引擎技术的发展,已经给人类的生活带来了日新月异的变化,人们可以简单的输入几个词,获取相关信息。然而,通常的搜索引擎技术仍然存在几个方面的不足。一、相关性信息反馈过多且不准确,用户需要花费太多的时间获取所需要的结果;二、只能依靠关键字间的匹配关系,无法准确表达用户的检索需求,因此对自然语言式提问的方式有着十分迫切的需求;三、通用的搜索引擎技术对问题的检索,仍然基于简单的关键字匹配上,尚没有涉及语义的检索。问答系统的优势在于用户能够通过自然语言的方式进行提问,系统返回的不再是网页的列表,而是直接的答案。传统的问答系统以聊天机器人、基于知识库的问答系统和基于web的问答系统三种形式为主。聊天机器人以模式匹配为主要求解策略,不足以针对大规模知识库进行深入的研究;基于web的问答系统以web作为知识获取的信息源,涉及到web抓取的内容,不足以专注于研究语义理解在问答系统中的应用。因此本文基于面向知识库的受限领域问答系统,结合领域FAQ库和本体知识库的问答策略,针对问答系统的主要技术,如词法分析、句法分析、语义推理等进行深入的研究。本文的主要研究工作如下:(一)基于层叠隐马模型的词法分析,在中科院ICTCLAS分词系统的基础上,实现了基于N-最短路径的粗分策略和基于隐马模型的未登录词识别、词性标注模块。并在此基础上,完成以名词、动词、形容词和副词为关键词成分的提取策略,为基于FAQ库的问答策略做好准备。(二)基于LTP的依存文法分析,在哈工大自然语言处理平台的基础上,实现了基于GParser的依存文法分析模块,提取句子的核心结构,并在此基础上,基于模式匹配的方式,完成问句从自然语言到SPARQL查询表达式的生成,为基于本体知识库的问答策略做好准备。(三)基于关键词扩展的FAQ库问答策略,本文在前人研究的基础上,结合传统词形相似度、句长相似度以及基于哈工大同义词林和《知网》语义相似度的方法,提出了一种针对句子关键词成分的相似度计算策略;构建以旅游领域为背景的FAQ库,完成了面向FAQ库的问答模块。(四)面向本体知识库的问答策略,本文在前人研究的基础上,构建了以旅游领域为背景的本体知识库,实现了基于SPARQL的本体查询模块。总结本文的贡献如下:(一)在现有技术的基础上,提出了一种融合策略,结合FAQ库和本体知识库问答技术的优势,实现了以此为框架的受限领域问答系统。(二)在句子相似度计算中,提出了一种组合词形相似度、句长相似度以及基于同义词词林和《知网》的语义相似度相结合的句子相似度计算方法,旨在改善问句相似度计算的准确性。(三)提出了一种从自然语言经过问句依存结构分析,向SPARQL本体查询表达式转化的策略。