论文部分内容阅读
随着信息检索技术的发展,互联网上出现了多种类型的搜索服务。其中应用最为广泛的当数Web搜索引擎服务,实现了对海量Web文档的获取、处理、存储和访问,使用户能够在互联网上方便快捷的查找到所需信息,在人们日常生活中发挥了重要作用。但是,随着互联网信息量的增长和搜索引擎技术的成熟,互联网用户已经不满足于单纯基于关键词的搜索服务,而希望通过自然语言描述,表达自己的查询需求,希望搜索服务系统能够理解用户意图,返回恰当的结果。因此,自动问答系统成了互联网用户的下一步渴望。自动问答系统的用户界面类似于搜索引擎,但用户提交的不再是关键词,而是自然语言问句,系统返回的是根据与问题相关程度排序的答案列表。目前,自动问答领域已经积累了大量的研究成果,包括基于不同语言的、不同数据集的自动问答研究。但是,自动问答还没能像搜索引擎一样,形成产品化的服务。本文旨在为产品化的自动问答互联网服务积累经验,研究基于一种特定的数据集——问答网络论坛数据集,构建自动问答系统的过程;进而在信息检索过程中,通过引入自然语言句法和语义信息、重新定义数据组织形式等措施,研究系统性能的一系列改进方案。主要贡献和创新点包括:●构建自动问答系统的评测平台。在问答网络论坛数据集上,参照搜索引擎实现原理,基于标引项,采用文本相似度检索模型构建自动问答系统。实验表明:系统性能略优于问答网络论坛自带的“相似问题搜索”功能,将代替该功能,作为本文系统性能改进的评价基准。●基于依存项的自动问答系统性能改进。提出依存项定义,在标引项基础上引入了自然语言依存句法分析结果,将句法信息引入到信息检索过程中。实验表明:依存项可以有效表达问题的自然语言句法特征,原有的信息检索模型不做任何改变,即可改进自动问答系统性能。●基于问题分类的自动问答系统性能改进。针对问答网络论坛数据集,提出一套新的自然语言问题分类体系,将自然语言句法和语义信息作为训练特征,训练出足够精确的问题分类器。问题分类结果用于指导答案排序。实验表明:分类器对论坛数据集分类效果良好,类别指导排序明显改进了系统性能。●基于自然语言知识体系的自动问答系统改进。参考前两种系统改进经验,提出新的数据组织形式:向概念体系添加谓语关联,建立自然语言知识体系。谓语关联由数据集中的问题答案对产生。这是一种综合的改进,既充分利用了数据集中的答案信息,又借助自然语言概念体系的关联关系,增强了系统的查询扩展和逻辑推理能力。论坛数据填充到此体系中,并在此体系上重建自动问答系统。实验表明:重建后系统性能得到全面改进。