论文部分内容阅读
近年来,随着互联网及其相关技术的飞速发展,搜索引擎成为人们从网上获取信息的有效方式之一。但是这些传统的搜索引擎存在着许多不足的地方,如相关性信息冗繁,检索结果不够精确,结果依赖于用户的检索意图表达等。因此,探索更加高效的搜索引擎或者对新型的信息检索系统-智能问答系统进行研究,成为一个具有深远意义的研究课题。本课题利用自然语言处理技术,开展对自动问答系统相关技术的研究。主要完成了如下工作: 第一,在传统问句分析的基础上,提出了将问句信息形式化的问句表征方法。该方法首先对问句进行分词、去停用词等预处理,然后结合FAQ库和网络对问句进 行关键词扩展,以网络为语料库,利用n元语法模型对问句中的新词进行识别,利用疑问词结合改进的贝叶斯方法对问句进行分类。最后利用原始关键词+新词+扩展词+类别的形式对问句的信息进行表征。 第二,完成了基于元搜索技术的信息检索研究。利用网络作为问答系统信息检索模块的知识库,同时加入元搜索的技术提高信息检索的全面性。主要包括:分析元搜索引擎的工作原理,根据成员搜索引擎的特点转换成成员搜索引擎URL,对成员搜索引擎返回的网页内容进行解析,整合成员搜索引擎返回结果,最后进行候选答案的提取。 第三,在答案抽取模块,设计了一种融合句子表面信息和句法结构的相似度计算算法。在计算句子的相似度时,首先考虑句子表面信息-相同关键词的个数和关键词的顺序两个因素,然后考虑句法结构的相似度,最后将两种方法结合起来考虑句子的相似度,进行答案的抽取。 第四,在上述研究成果的基础上,设计并实现了一个基于问句表征的web问答系统。本系统共包括三个模块:问句表征模块、信息检索模块和答案抽取模块。最后对系统进行了实验和评估。 实验数据表明,论文提出的问句表征和相关算法是有效的。