论文部分内容阅读
随着互联网络的不断发展,网络应用已深入到日常生活的方方面面。互联网上的各类服务,在为用户提供方便的同时也积累了大量的数据,如何有效的利用这些数据已成为一个重要课题。基于Web的自动问答系统就是利用丰富的网络数据,回答用户提出的自然语言问题的应用。
本文分析了现有Web自动问题回答系统的特点和不足,着重在自然语言处理和知识推导两个方面进行了深入研究,建立了基于QnA网络论坛的知识表示系统“KNEW”。该系统选择了更有针对性的QnA(Question and Answer)问答论坛数据作为建立知识库的数据,以提高数据源的可靠性及准确性。QnA问答论坛是一种流行的网络服务。使用者通过问答论坛提出问题或提供答案。论坛积累了大量的问题与答案链数据。使用论坛数据中蕴含的知识可以建立自动问题回答、自动百科辞典、专家搜索系统等多种应用。
本文总结了建立KNEW系统四个方面的工作:第一,数据清洗,包括纠正拼写错误及网络用语,避免了问答数据上下文中拼写错误、网络用语等对匹配准确率的影响;第二,使用自然语言处理技术将问题和答案文本,通过语法分析(Parse) 和句型转换(Sentence Pattern Conversion)等步骤分解为便于查询和匹配的Term、Statement集合,以高效的数据库结构加以存储;第三,系统根据WordNet提供的先验知识,为Term集合建立了上、下位、同义、反义关系,以方便在现有知识的基础上进行推导,弥补了知识库有限性的不足,大大提高了知识查询的效率及准确性;第四,KNEW 系统还为上层应用提供了丰富的接口函数,为更有效的利用QnA论坛知识库提供了方便。
本文还基于KNEW系统,提出了建立了自动问题回答系统应用的详细解决方案。自动问题回答系统可以使用KNEW系统提供的接口函数,调用为问答系统定制的高效综合查询函数,实现自然语言问题的处理与匹配。本文还提出了专家搜索和自动百科全书应用的建立思路,KNEW系统也为以上应用提供了丰富的接口函数。