论文部分内容阅读
互联网的发展使人们能够在互联网这个平台上方便地保存数据、交流信息以及共享知识。人类日常所需的大部分知识,均可利用互联网得到。在现阶段,人们大多通过搜索引擎从互联网中寻找所需知识。但是,搜索引擎只允许用户通过若干关键词描述需求并且只能返回与这些关键词相关的信息,用户需花费大量时间从中寻找所需知识。为了改善这种状况,问答系统(Question Answering System)逐渐成为研究热点。该系统接收用户所提出的各种问题,直接获取高质量的答案返回用户。相比搜索引擎,问答系统允许用户将所需信息以问题的形式描述出来,这些问题比关键词包含更多的语义信息,能够更加准确地描述用户的需求。问答系统可分为自动问答系统和交互式问答系统。其中,自动问答系统主要利用基于语义匹配的答案获取方法,首先对问题进行语义分析,而后从数据源抽取与问题所问事物的语义特征相一致的信息,将其作为答案返回用户;交互式问答系统主要利用基于问题推荐的答案获取方法,通过分析用户模型,将问题推荐至合适的用户处。本文围绕这两种不同的答案获取方法,对如何加强问题的语义分析能力、提高相关文档的抓取质量、增加答案的抽取速度和准确率以及优化问题的推荐策略等内容进行了深入研究,以提高问答系统的问题回答率和答案正确率。本文的主要研究内容和创新之处如下:首先,提出了一种新型的问题模板粒度评估策略SIIPU(SemanticIdentifiability Inverse Pattern Universality),并以SIIPU为基础给出了一种有效的问题模板学习算法SIIPU*S。SIIPU能够分析出不同粒度的语法约束信息对问题语义进行分析时的不同效果,进而根据实际需求选择合适的语法约束构建问题模板,以保证学得的问题模板在能够准确分析问题语义的前提下,处理尽量多的问题。其次,提出了一种基于查询重写的段落抽取方法以快速获取若干与问题相关的段落。该方法利用启发式的查询生成策略,能够将问题转换为几组高质量的查询,这些查询能够较为准确地刻画用户需求。此外,通过基于模板的问题特征抽取策略,根据每个关键词在问题中的不同角色定制对应的权重,以便在抽取段落时,能够提高包含“重要”词语的段落被抽取到的概率。再次,提出了一种基于动态模板的答案抽取方法。该方法利用启发式的信息抽取规则学习算法HRL(Heuristic Rule Learning),从用户标注过的文档训练集中抽取出高质量的信息抽取规则。此外,利用问题的分析结果,能够选择适当的抽取规则动态生成若干与该问题相对应的答案模板,以便从与问题相关的段落中抽取准确答案。最后,提出一种基于负载平衡的问题推荐策略。该机制通过分析用户的信誉度以及对各个领域的兴趣度和权威性,为其推荐相关问题。同时,所有待解决的问题会依照其重要程度被依次推荐,以保证重要问题能够被优先推荐。并且,问题被尽量平摊至不同的用户,以调动每位用户的参与度。此外,紧急的问题会被推荐至积极性较高的领域专家处,以确保能够被及时回答。在上述工作基础上,本文实现了两个问答原型系统。实验结果表明所提出的方法有效提高了问答系统的效率。