论文部分内容阅读
随着互联网内容的极大丰富,信息海量化正在不断导致信息垃圾化.只有解决了信息的甄别、加工、提纯和挖掘,只有从海量形如垃圾的信息中发现真正的知识,才能带来价值的提升.所以此时,搜索引擎比以往任何一个时候都更加重要.但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要.自动问答技术正是为了满足人们的这种需要而发展起来的.搜索引擎,要求输入的是一些关键字的组合,而自动问答系统允许用户输入一个问句;搜索引擎返回给用户的是一堆相关的网页,而自动问答系统返回给用户的是一个简短而准确的答案.这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息.问答系统(QA,Question Answering)采用自然语言处理技术,一方面完成对用户查询的理解;另一方面完成正确答案的生成.这些研究涉及到计算语言学、信息科学和人工智能学,是计算机应用研究的热点之一.目前,虽然离自然语言完全机器理解尚有很长的距离,但对于一定的领域,采用针对性的方法,已经开发出许多成功的应用.该文正是对中文问答系统研究的一个探索.该文主要对中文自动问答系统的两个主要组成部分:问题理解和答案抽取进行了研究.对于用户提交的问题,首先要进行分词、词性标注以及名实体识别等预处理,并通过对问题的理解来掌握用户的信息需求.问题理解包括:问题分类、关键词提取和查询扩展.问题分类确定查询的类别,便于答案抽取.关键词提取确定提交检索的关键词,查询扩展有利于解决表达差异的问题,该文提出了基于平均互信息的用户问句查询扩展模型.在已有的文档库中检索出和问题理解阶段产生的关键词相关的文档后,答案抽取模块将从候选窗口中发现相应的答案,连同相应的该本同时返回给用户.该文介绍了三种常见英文问答系统的答案抽取方法:基于名实体,推理,上下文的.目前中文问答系统大都使用文本片断作为返回答案.针对旅游领域,该文提出来一种细粒度分类方法,并给出了基于规则和名实体识别的答案抽取方法.最后该文还介绍了基于旅游领域的问答系统的实现及其评价.