论文部分内容阅读
随着互联网络的高速发展,问答系统的研究成为当前自然语言处理领域中最有活力的方向之一。同时基于常问问题集的问答系统的应用也越来越广泛。它综合运用了知识表示、信息检索等技术,广泛应用于网络答疑、公司客服等方面。在众多的问答技术中相似度计算是中文信息处理中最为基础和重要的工作,它直接决定着某些领域的研究和发展状况,例如,自动问答系统、机器翻译、信息检索、自动文摘等领域。长期以来一直是人们研究的一个热点和难点。 传统的中文常问问答系统中,相似度的计算大多采用基于关键词匹配的方法或者统计的方法,效果不尽人意。相似度计算成为影响系统性能的最主要因素。本文选择知网系统(HowNet)作为相似度计算的基础,深入研究了知网系统的语义结构,实现了基于知网的语义相似度计算模块。并以此为基础实现了一个实际的常问问答系统。 自然语言中一词多义现象普遍存在,成为制约相似度算法精度和速度的一个重要因素,同时也影响了常问问答系统的性能。本文针对这一现象,引入了词义消歧的思想。实现了基于知网的词义消歧,并对知网系统的义项文件进行了整理,改进了基于知网的词义消歧方法,提高了消歧算法的精度和速度。并将该词义消歧方法与基于知网的相似度计算方法结合起来,实现了真正意义上的语义理解。以此为基础,实现了一个实际的常问问答系统。 本文中消歧模块和语义相似度模块的测试语料均为作者精心搜集整理,常问问答系统的测试问答集合是由东北财经大学网络教育学院提供的真实的问答集合。测试结果表明,引入消歧思想后,相似度的计算精度得到了提高,常问问答系统的总体性能也达到了实际应用的需要。因此,可以说发展中文问答技术的一个重要途径就是消歧算法的改进。