问答系统中用户问句处理与答案抽取的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:awind54335
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网内容的极大丰富,信息海量化正在不断导致信息垃圾化.只有解决了信息的甄别、加工、提纯和挖掘,只有从海量形如垃圾的信息中发现真正的知识,才能带来价值的提升.所以此时,搜索引擎比以往任何一个时候都更加重要.但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要.自动问答技术正是为了满足人们的这种需要而发展起来的.搜索引擎,要求输入的是一些关键字的组合,而自动问答系统允许用户输入一个问句;搜索引擎返回给用户的是一堆相关的网页,而自动问答系统返回给用户的是一个简短而准确的答案.这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息.问答系统(QA,Question Answering)采用自然语言处理技术,一方面完成对用户查询的理解;另一方面完成正确答案的生成.这些研究涉及到计算语言学、信息科学和人工智能学,是计算机应用研究的热点之一.目前,虽然离自然语言完全机器理解尚有很长的距离,但对于一定的领域,采用针对性的方法,已经开发出许多成功的应用.该文正是对中文问答系统研究的一个探索.该文主要对中文自动问答系统的两个主要组成部分:问题理解和答案抽取进行了研究.对于用户提交的问题,首先要进行分词、词性标注以及名实体识别等预处理,并通过对问题的理解来掌握用户的信息需求.问题理解包括:问题分类、关键词提取和查询扩展.问题分类确定查询的类别,便于答案抽取.关键词提取确定提交检索的关键词,查询扩展有利于解决表达差异的问题,该文提出了基于平均互信息的用户问句查询扩展模型.在已有的文档库中检索出和问题理解阶段产生的关键词相关的文档后,答案抽取模块将从候选窗口中发现相应的答案,连同相应的该本同时返回给用户.该文介绍了三种常见英文问答系统的答案抽取方法:基于名实体,推理,上下文的.目前中文问答系统大都使用文本片断作为返回答案.针对旅游领域,该文提出来一种细粒度分类方法,并给出了基于规则和名实体识别的答案抽取方法.最后该文还介绍了基于旅游领域的问答系统的实现及其评价.
其他文献
随着微处理器技术和操作系统技术的不断发展,嵌入式实时操作系统已经成为计算机科学的一个重要组成部分,并且已经被广泛应用于制造业、过程控制、仪器仪表、通讯等不同领域。
本文分析了现有矢量化研究的两类主要方法:一阶段方法和两阶段方法.在分析这些方法的优缺点的基础上,提出了"逐步简化的两阶段混合矢量化模型".在上述模型中,首先应用一阶段
近几年来,物流作为促进经济增长的“第三利润源”,受到了国内各行各业的极大重视并得到了迅速的发展。配送是物流中的一个重要的、直接与消费者相连的环节,在配送业务中,配送
芯片制造尺寸的逐步缩小和片上集成度的不断提高,使得数字集成电路的设计愈加复杂,设计错误随之增多。硅前验证技术难以在流片前发现所有的设计错误,一些错误遗留到硅后。硅后调
计算机网络经过长期的发展,不同的操作系统和应用程序以不同的格式在网络上存储了大量信息。一个网络管理员无法在一个集中的信息库中、以方便的方法管理网络信息和资源。用户
在计算机网络快速发展的同时,网络入侵呈现出的综合化发展趋势也给入侵检测技术提出新的挑战。虽然由于采用了多种网络防范技术,使攻击的难度增加,但是入侵者在实施入侵时往
本文将切片技术应用于软件体系结构中,针对软件体系结构的特点,根据传统的程序依赖图和系统依赖图的构建思想,提出了体系结构元素依赖图(Architecture Element Dependence Gr
本研究为军队某部MGIS方案设计分支课题的内容之一,主要探讨由数字高程模型进行地形分析的算法,还原成拟合地表曲面,以利于生成军事电子地图和电子沙盘,为进一步进行导航、地形匹
数据挖掘(Data Mining)就是从大量数据中提取或“挖掘”知识。数据挖掘被信息产业界认为是信息系统最重要的研究和应用领域之一,也是信息产业界最有前途的交叉性学科之一。关
曲面重构是计算机辅助几何设计(CAGD)和计算机图形学(CG)的一项重要内容。在现有的曲面重构技术中,非均匀有理 B样条(NURBS)方法无疑是最为广泛流行的技术。因为NURBS优良的