论文部分内容阅读
搜索引擎提供了大规模文档集的检索接口,但是用户必须先把信息需求表达为检索词序列,然后再由搜索引擎检索出与需求相关的文档。问答系统是新一代的搜索引擎,它先接收自然语言描述的问题,然后返回问题的答案。问答系统自动从相关文档中查找答案,满足了用户对答案本身的需求。
本文设计了一个中文问答系统Q-Killer,它采用自然语言处理与传统的信息检索相结合的技术提取答案本身。Q-Killer主要由问题分析、信息检索和答案抽取三个模块组成,本文重点介绍了其中信息检索和答案抽取的研究工作。
在信息检索模块中,Q-Killer解决了倒排索引的两个关键问题。首先设计了一种适用于汉语的三层索引文件,这种文件是在对汉语词典进行统计分析的基础上设计的,实验表明对于大规模的中文文本检索,三层索引文件能够有效地降低索引查找的复杂度。同时针对倒排文件中高频词的问题还提出一种有选择的文档索引机制,只对高频词权重较高的文档创建索引,实验表明这种机制在不影响检索质量的情况下提高了与高频词有关的检索效率。
Q-Killer返回的答案由两部分组成——答案本身和答案的支持信息。答案本身是根据相应的答案模板从相关文档的动态摘要中抽取的,答案的支持信息则由相关文档的动态摘要组成。本文设计了一种基于机器学习中自扩展技术的答案模板生成算法,从大规模未标注语料库中学习并生成答案模板及其准确度。
本文提出了一种基于滑动窗口的动态摘要算法,并构造了动态摘要的评测模型,与Google和百度对比的实验证明该算法生成的摘要能够言简意赅地概括文章的相关内容,其综合评分分别提高了5%和11%。最后使用动态摘要进行查询扩展,从而得到更多与该摘要相关的答案。