基于问句表征的web问答系统研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:csnd123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网及其相关技术的飞速发展,搜索引擎成为人们从网上获取信息的有效方式之一。但是这些传统的搜索引擎存在着许多不足的地方,如相关性信息冗繁,检索结果不够精确,结果依赖于用户的检索意图表达等。因此,探索更加高效的搜索引擎或者对新型的信息检索系统-智能问答系统进行研究,成为一个具有深远意义的研究课题。本课题利用自然语言处理技术,开展对自动问答系统相关技术的研究。主要完成了如下工作:  第一,在传统问句分析的基础上,提出了将问句信息形式化的问句表征方法。该方法首先对问句进行分词、去停用词等预处理,然后结合FAQ库和网络对问句进  行关键词扩展,以网络为语料库,利用n元语法模型对问句中的新词进行识别,利用疑问词结合改进的贝叶斯方法对问句进行分类。最后利用原始关键词+新词+扩展词+类别的形式对问句的信息进行表征。  第二,完成了基于元搜索技术的信息检索研究。利用网络作为问答系统信息检索模块的知识库,同时加入元搜索的技术提高信息检索的全面性。主要包括:分析元搜索引擎的工作原理,根据成员搜索引擎的特点转换成成员搜索引擎URL,对成员搜索引擎返回的网页内容进行解析,整合成员搜索引擎返回结果,最后进行候选答案的提取。  第三,在答案抽取模块,设计了一种融合句子表面信息和句法结构的相似度计算算法。在计算句子的相似度时,首先考虑句子表面信息-相同关键词的个数和关键词的顺序两个因素,然后考虑句法结构的相似度,最后将两种方法结合起来考虑句子的相似度,进行答案的抽取。  第四,在上述研究成果的基础上,设计并实现了一个基于问句表征的web问答系统。本系统共包括三个模块:问句表征模块、信息检索模块和答案抽取模块。最后对系统进行了实验和评估。  实验数据表明,论文提出的问句表征和相关算法是有效的。
其他文献
随着计算机信息技术的高速发展,企业级信息化管理系统的概念被越来越多人所熟知,大量软件系统暴露出不易扩展、维护困难的弱点。设计模式的出现有效的缓解了这个问题,通过学
多方协同应用涉及到多个主体、多系统间的流程协作与信息交互,并且一个完整的业务流程也有可能涉及多个子流程,因此多方协同应用的业务流程一般都非常复杂。而如今多方协同应
覆盖表生成是组合测试研究的热点之一,其中贪心算法因为生成速度快,生成的覆盖表规模小而得到人们青睐。目前研究人员已经提出了很多基于不同策略的贪心算法,如AETG、TCG、DDA等
2001年万维网之父蒂姆?伯纳斯-李和他的同事在《科学美国人》上面发表的一篇科普性的文章《The Semantic Web》标志着语义万维网的诞生。语义万维网至今己经发展了十几年的时
在软件测试中,测试充分是软件质量最可靠的保障,也是软件测试的最终目标。在白盒测试中,路径测试思想保证系统中的每一条路径至少被执行一次,以达到完测试的目的。基于语句,路径的
中文文本自动校对技术是计算机根据文本本身包含的信息,对其电子文本自动分析,发现、标示出错误并进行改正的过程。它涉及语言学、计算机科学、数理统计学等多门学科知识,是建立
为了满足高速高精加工过程中对计算能力和数据传输能力日益增高的要求,数字化与网络化已经成为高档数控系统的一个重要发展趋势。目前,国外主要的数控系统厂商都开始采用现场总
中国移动一级业务运营支撑系统自成立以来,规范了数据业务的传输机制,形成了良好的业务体系,主要由网络管理、系统管理、计费、营业账务和客户服务等部分组成,系统间通过统一
随着移动通信网络的发展和应用软件的丰富,智能手机已成为移动终端的发展趋势。智能手机配备了丰富的硬件接口和开放性的操作系统,为用户提供了一个功能强大的信息处理平台,但同
阴影是树木的重要视觉特征,它对提高树木绘制的真实感具有重要作用,同时阴影算法效率也是影响树木绘制效率的重要因素,因此树木阴影的快速生成和真实感绘制方法研究具有重要