论文部分内容阅读
在如今的互联网时代,信息成为人们最重要和宝贵的资源之一。但是现有的以关键字和关键词的简单逻辑组合为基础的信息检索模式在某种程度上距离人们对信息快速、准确获取的需求越来越遥远。于是问答系统逐渐受到重视和发展。这些年来,中文信息处理技术的进步也极大地推动了中文问答系统的研究。本文主要借助于自然语言理解技术,对领域专业关键词标注库的构建,中文问句的理解,问句相似度的计算方法等问答系统的关键技术进行了深入的研究和探讨,提出了基于语义依存树和改进编辑距离相结合的句子相似度计算方法,并在此基础上实现了电信产品信息领域的问答系统的原型。实验证明,本文采用的基于语义依存树和改进编辑距离相结合的句子相似度计算取得了比较理想的应用效果。本文主要的工作和成果如下:1.通过领域语料预处理、并利用互信息理论,选择内部结合强度较高的字串作为候选词汇,构造了候选词集,最后在进行领域术语识别等流程实现了领域术语抽取系统,并在知网的基础上构建了领域义原树以及领域专业关键词标注库。2.在问句理解的处理中,我们借助于“问句统一型”以及相应的问句句型库,建立了疑问词表、问句统一型表和可能的回答形式表,实现了从多种提问形式到问句统一型,从问句统一型到多种回答形式的映射。3.分析比较了目前存在的各种句子相似度计算方法,发现基于语义依存的句子相似度计算方法体现了句子内部的结构和词语之间的相互作用关系,而编辑距离能够以较小的开销实现同义词之间的替换,并且可以表达组成句子的每个词的深层语义信息。于是我们利用骨架依存树把两种计算方法结合起来形成一种方法,从而达到扬长避短的目的。这样,我们便综合考虑了词法、句法、语义等方面。实验表明,该方法就有较好的实验效果。4.综合以上研究成果,我们设计并实现了基于电信产品信息的中文自动问答系统的原型。