基于搜索引擎的中文自动问答系统的设计与实现

来源 :北京工业大学 | 被引量 : 11次 | 上传用户:zhoulinqin274385037
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们处于一个信息极其丰富的时代,人们对于快速准确地获取信息产生极大的需求。搜索引擎以其使用方便、反应迅捷而备受人们欢迎,成为信息获取的最主要方式。然而搜索引擎以关键词的检索方式很难清晰表达用户的意图,并且以网页集合的方式返回结果仍然需要用户自己手动查找答案。因此自动问答系统应运而生,但是传统的自动问答系统存在信息覆盖不全面、更新不及时的缺陷,并且需要维护一个庞大的知识库。为了发挥两者的优势,本文拟将两者结合起来,设计与实现一个改进的基于搜索引擎的中文自动问答系统。本文的主要工作如下:(1)改进Site Q算法,提出Topic-Site Q算法:首尾段落和首尾语句对语义有着较大的贡献,本文将其以恰当权重融入Site Q算法,提出关联首尾段落和首尾语句的多特征融合段落检索算法Topic-Site Q:采用多特征融合的算法计算首尾语句的语义相似度,并以一定的权值体现它们对段落相关度的贡献,同时提高首尾段落的评分值,最后根据该评分值进行段落排序并返回候选段落集。(2)改进基于语义依存树的答案抽取算法:基于语义依存树的答案抽取算法主要对语义和语法结构进行考察,考察方式单一不够全面。词频作为重要的语义特征之一,应该在答案抽取算法中体现该特征。本文对基于语义依存树的答案抽取算法进行改进,将关键词出现的频率考虑进去,利用对数线性模型将两者融合在一起,提出改进的基于语义依存树的答案抽取算法。(3)设计并实现了一个改进的基于搜索引擎的中文自动问答系统,并根据改进的两个算法对该系统进行优化。先是详细的分析了系统的需求,然后描述系统的总体结构并给出系统结构图。在详细设计与实现部分,分模块详细论述各个模块的功能、处理流程、实现细节以及使用的核心算法及其改进。(4)为了验证提出的优化方法的有效性,人工构建问题测试集对算法和系统的改进效果进行实验,计算两个算法改进前后以及系统使用改进后的算法的MRR值、查准率、召回率和F1值并进行对比分析。实验结果表明,算法的改进效果良好,使用改进的算法后系统性能有所提高。
其他文献
三维编织技术是国外八十年代初发展起来的一种新型纺织技术.主要的两种编织方法:二步法和四步法.以往的三维编织多采用四步法进行,在这方面的织物结构研究和计算机辅助设计已
所谓“眼见为实”,通过观察一幅图像,人们可以对事物的外观信息和由其呈现出的事物性质得以直观和真切地把握。由于量子计算机的性能较之经典计算机有着本质的飞跃,以及量子计算
当前,回答集程序设计已经成为人工智能领域知识表示和推理的重要工具。它是一种描述性的问题解决框架,非常适用于对涉及常识推理的问题进行建模,并自动求解。动态逻辑程序是回答
由于互联网技术的快速发展,我们可以通过它来发布和获取各式各样的信息。所以,为了充分且有效地表示网络上丰富的数据,W3C组织提出了将XML作为互联网上信息共享的格式。XML由
近年来,随着数字化技术、信息化技术以及多媒体技术的迅速发展,有大量的数字图像、遥感图像、广告图像、路标指示牌以及微博(web)中的图像充斥着我们的生活。而这些图像中包
人体检测的目的是识别出图像中的人体并给出其定位信息。人体检测技术在运动分析、智能监控以及驾驶辅助系统等领域有着广泛的应用,是物体检测的一个研究热点。R-CNN(Regions
本体是实现语义网的关键组成部分,是对领域知识的一种形式化表达。它用来标注语义网络上的网页、数据等资源,目的在于支持应用系统的语义集成和互操作。近年来,本体的数量快速增
随着工业控制网络朝着生产高度数字化、网络化、机器自组织的方向发展。在生产效率提高的同时,越来越多的安全风险和安全漏洞被暴露出来。尤其在工业控制网络层,作为工业控制
步入21世纪以来,移动无线通信技术以及智能终端技术得到迅速发展,人们对更便捷、更高效、更高容量的无线网络的要求不断提高。无线多跳网络(无线Ad Hoc网络、无线mesh网络、
随着军队及通信台站装备技术、管理理念和管理方法的不断发展,目前所实行的各类法规制度逐渐暴露出一些缺陷,如缺少人员管理指标及量化标准等、缺乏过程监管、缺乏评估手段、缺乏信息化平台,等等。因此,建立一套以信息网络为支撑,结构一体、数据共享的综合管理体系非常必要。本文旨在通过分析目前台站所面临的管理问题及衍生出来的实际需求,给出一种基于B/S结构的基层台站量化考评管理系统。该系统以现有的法规制度为依据,