论文部分内容阅读
养老保险与社会民生息息相关,广大参保群众在参保过程中常常会遇到各式各样的问题。研究问答系统关键技术,并将其应用到养老保险领域中,用自然语言快速准确地回答用户的问题,具有深远的研究意义和现实意义。本文针对面向养老保险领域的问答技术进行了一些探讨,主要完成了以下几方面的工作:首先,对从问答服务类网站汇集的14万个养老保险主题相关的真实问句进行详细的特点分析,按领域主题制定类别体系。在问句分析阶段结合养老保险领域词库对查询问句进行分词、语义标注、关键词提取、命名实体识别、句法依存关系分析。其次,提出了适用于养老保险领域的KNN主动学习的问句分类算法。从汇集的养老保险领域问答对中抽取一小部分进行人工标注,使用启发式的方法从待标注样本集中选择对分类模型更有益的数据进行标注,扩充已标注样本集,缩减待标注样本集,在此基础上迭代学习,训练得到的新模型分类精度更高。解决标注样本集较小情况下问句分类器准确率低下的问题。然后,提出了新的问句检索模型MFISC。该模型对词汇特征相似度、问句词汇语义相似度、句法结构相似度进行加权运算,求得的值作为查询问句和历史问句的相似度,提高检索精度,最终将相似度最高的历史问句答案作为查询问句的答案返回。最后,完成了以上两种算法的实验,验证基于KNN主动学习的问句分类算法及MFISC检索模型的有效性,对构建养老保险领域问答系统具有实际的应用价值。