论文部分内容阅读
问答系统为人们提供了自然语言的人机交互方式,相对于传统的关键词方式搜索引擎来说,其具有更准确,快捷和高效的特点,有着非常广泛的应用前景,是当前研究的热点和难点问题。由于自然语言处理的复杂性,人们把它限定在一定领域来研究,这使得受限域中文问答系统成为国内研究的热点。在受限域中文问答系统中,答案的实时性和准确性决定整个系统的性能,因此答案抽取成为一个重要研究话题。本文针对受限领域中答案抽取中的关键技术做了一定的探讨,即如何从的现有网络资源中获取海量领域实时信息?如何从海量领域信息中获取最相关信息?如何准确地定位答案?主要取得了以下几个方面的成果:(1)提出了在受限域中构建领域知识库的方法。该方法借助本体(Ontology)思想,采用基于大量语料统计的动态获取方法在领域语料中提取领域概念和领域本体,再利用知网(HowNet)概念描述方法对其描述,构建领域知识库,为领域问题的研究提供了更有效的资源。(2)提出了领域文本检索方法。该方法结合领域特性,利用现代搜索引擎技术,构建领域搜索引擎系统,并通过它获取了大量的领域文本,为解决领域问题提供了大量的领域文本资源。(3)提出了领域段落检索方法。该方法将段落检索思想应用到受限域问答系统中,并结合领域特性改进了基于密度的段落检索算法使其更适应受限领域,为最后的答案抽取提供了准确的领域段落资源。(4)提出了领域答案抽取方法。该方法针对领域问题,形成了一整套解决领域中一般性问题的答案抽取策略,抽取结果表明该策略在解决领域问题中起到了一定的效果。(5)以云南旅游作为受限领域,构建了云南旅游知识库,进行了云南旅游的文本检索、段落检索及答案抽取,设计并实现了问答原型系统。