论文部分内容阅读
常问问题库是问答系统的重要组成部分。问答系统通过将常见问题及其答案存储起来,形成常问问题集,来提高类似问题的答案搜索与合成效率。FAQ在使用上,存在问题集的更新和匹配新问题两个主要的问题,而解决这两个问题的关键,则在于问题(或称问句)相似度的准确计算。本文主要针对FAQ自动问答系统中的问句相似度进行研究,利用中文问句和中文语言的特点以进一步提高问句相似度计算的精度,达到改善FAQ问答系统性能的目的。论文的主要工作如下:(1)现有文献中,问句相似度的计算主要借鉴普通陈述句的相似度计算方法,而普通陈述句的相似更多反映的是语句间语义上的匹配符合程度,而衡量问句间的相似性则须同时考虑问句及其答案句之间的相似程度,为此,设计了一种新的问句相似度计算方法。该方法不仅利用问句之间的语义和语法特征考察问句之间的匹配程度,还利用问句的问题类型等信息来间接刻画答案句之间的特征形象,从而获取问句的深层语义信息,以提高问句相似度计算的准确性。实验验证了该方法的有效性。(2)由于基于《知网》的问句相似度计算方法中,词语相似度计算方法是利用相同的处理方法来处理对义词反义词与同义词近义词,从而有可能导致截然相反的两个问句拥有很高的相似度。为此,设计了一种改进的基于《知网》的问句语义相似度计算方法,该方法中不仅能够处理中文词语之间的褒贬性,也能够处理中文词语与英文单词之间的褒贬性,其中,对义或者反义的词语对问句相似度计算结果都起着副作用,从而降低了相反的问句成为相似问句的可能。实验证明了该方法更加有效。(3)基于上述研究,给出一个FAQ自动问答系统的原型系统,包含本文的一些研究方法的演示,为今后更加深入的研究提供一个平台。