论文部分内容阅读
人类在日常的工作和生活中需要借助大量的知识来解决面临的各种各样的问题,但毕竟个人所掌握的知识有限,需要实时查阅和获取知识。目前,人们常常借助搜索引擎通过互联网实现这一目的。然而,搜索引擎的输入是用户并不习惯的关键词组合形式,不能准确和完整地表达用户的搜索意图,其返回的结果是大量网页的集合,并非用户所希望获取的简洁而具体的答案,往往需要用户进行二次查找。
问答系统允许用户以自然语言提问,有利于清晰地表达问题的语义信息,返回的是简洁而准确的答案,与传统搜索引擎相比具有独特的高效实用优势。因此,问答系统成为信息检索领域中继搜索引擎之后的又一个研究热点,尤其是不限定问题范围的开放域自动问答系统,具有极高的理论研究价值和广阔的应用前景。
本文围绕问答系统的问题分析、信息检索和答案抽取各阶段的关键技术,结合前人的研究成果,在问题分类特征的选取、关键词扩展,答案源获取、答案推荐和大规模问答对库的优化等方面进行了研究,主要研究成果如下:
(1)针对以关键词或者关键词的首义原作为问题分类特征的局限性,提出基于核心词的主要义原作为问题主要分类特征的分类算法。关键词作为分类特征常因为特征向量维数过高导致处理速度过慢,关键词的首义原作为问题分类特征会因为首义原抽象程度过高影响关键词语义的准确表达。实验证明,核心词的主要义原作为分类特征克服了上述不足,具有较好的分类效果。
(2)针对关键词同义扩展导致准确率降低的不足,提出一种限定语义距离的关键词同义扩展的精简算法。该算法先利用《同义词词林》进行同义扩展,再利用《知网》义原树计算扩展后的关键词之间的语义距离,依据事先限定的语义距离阈值剔除相似度较小的噪音数据,实现关键词集合的精简,此外还可以通过修改语义距离阈值实现关键词扩展集合的动态调整,进而实现信息检索的准确率和召回率的整体平衡。
(3)针对答案抽取技术贫乏的现状,结合互联网问答社区的兴起,提出一种基于两阶段相似度计算法的答案推荐技术。通过网页下载、网页去重和主题信息提取等步骤获得大量百度知道的问答对。先采用耗时较少的TF-IDF方法对问题相似度排序,再利用准确率较高的语义相似度方法对排序靠前的10个问句进行二次计算和排序,最后把问答对库中相似度最高的问题所对应的答案推荐给用户,弥补了答案抽取技术的不足。
(4)针对问答对质量参差不齐的现象,提出通过问答对的满意度属性值实现问答对库自动优化的方法。系统为每一个问答对增加一个“用户满意度”属性以记录用户对问答对的满意度,定期依据满意度值的大小评估问答对的质量,自动删除质量极低的问答对,实现问答对库的自动优化。
最后,实现了一个基于相似问题推荐的问答系统的原型系统,给出了原型系统的结构,体现了本文研究的实用价值。