论文部分内容阅读
随着海量网络信息的积累和规模的高速增长,准确快捷地找到自己所需要的信息已成为人们迫切的需求。自动问答系统,通过理解用户自然语言形式的问句,返回答案或包含答案的文本片段,在一定程度上提高了用户信息检索的效率和准确性。自动问答认为用户的每一个输入都是语义信息完整、独立于上下文语境的问句。另外,自动问答系统对相同的问句总是分析出相同的信息需求,并且应该返回相同的答案,而忽视了不同用户的检索意图之间存在的差异。 但是,在真实的应用环境中,用户往往需要通过与系统进行自然的、连续的、上下文相关的信息交互,以解决各种复杂的信息任务。用户的输入除了以信息检索为目的的问句外,还有关于系统功能的咨询、对系统回答的反馈等表达其他意图的对话;后续问句中往往会出现基于上下文语境的信息缺省现象,例如指代、省略等等;对于同一个问句,由于用户提问的意图不同,所表达的信息需求也不同,进而,所需要返回的答案也应该有所区别。因此,用户意图分析和交互式问答系统成为当前信息处理领域的研究热点。本文研究基于用户意图分析的交互式问答系统。具体的研究内容包括: 第一、基于言语行为的用户意图分析。通过对真实环境中收集的交互式问答语料分析发现,相当比例的用户输入是有关系统功能的咨询、对系统回答的反馈等衔接性的对话。为保证信息交互的流畅性和系统接口的人性化,有必要对用户输入的意图进行识别,从而给出合理应答。本文根据言语行为将用户输入的意图分为以信息检索为目的的问句、功能咨询、对系统的正、负面反馈等6个类别,并结合多层次的语言学特征,使用机器学习方法进行自动分类。对不同意图类型的输入,制定不同的应答策略,提高了系统处理用户输入的覆盖面和泛化性。 第二、后续问句中的上下文相关现象处理。用户的连续问答中往往会出现指代、省略等基于上下文信息的信息缺省现象。建立上下文语境模型,对问句缺省的信息进行补全是交互式问答的基础。本文收集了真实环境的中文交互式问答语料,并着重在对话结构、话题过渡的方式、上下文相关现象以及它们之间的关系等方面进行了统计分析。在此基础上,本文将上下文相关现象的识别转化为层次化多标记的分类问题,为不同的信息缺省现象构建了统一的框架。该框架以问句信息角色作为候选缺省信息的语义单位,在传统的指代消解和省略识别特征的基础上,针对问句的特点,增加信息角色及其转移方式、问句类型等新特征。实验验证表明,该算法的通用性更强,识别和处理上下文相关现象的性能优于其他算法。 第三、基于认知模型的用户意图分析。对用户检索意图的分析和理解是信息系统的关键,它通过检索关键词或者问句中所表达的信息需求而体现。问句类型表示信息需求的类型,现有的工作通常将一个问句识别为一个确定的类型,但是由于用户意图的差异,对同一个问句,不同的用户想表达的信息需求往往也不同。为了对用户信息需求的差异性进行建模,本文基于用户问答的认知过程,提出一个具有三个维度的问句分类体系,这三个维度分别对用户的浅层信息需求、隐含信息需求和对答案在语用层次的期望进行建模。本文首先收集并详细分析了用户对真实问句在三个维度上的标注结果,进而通过提取领域无关的、多层次的语言学特征,使用机器学习算法为每个层次构建了自动分类模型。实验证明,70%左右的隐含信息需求和语用期望可以被正确识别。 第四、基于用户意图多样化的交互式问答。鉴于对同一个问句,具有不同检索意图的用户想表达的信息需求也可能不同。目前,返回结果的意图多样化研究已经在信息检索领域受到广泛关注,但在问答领域却还没有相关的工作。本文首先提出信息需求紧凑度的概念来度量问句是否具有多样化的信息需求。然后,从问句类型,即信息需求的类型和问句话题,即用户提问围绕的对象两方面进行多样化信息需求的挖掘。在此基础上,课题改进了传统的问句检索算法,根据信息需求的多样性和重要度对检索结果重新排序。本文从在线社区问答平台上收集海量真实问句,构建问句检索系统做为实验平台。实验验证表明,该算法可以有效提高答案集合满足用户意图的多样性和覆盖度。该算法进而通过图形交互的形式应用于交互式问答系统中。