论文部分内容阅读
随着互联网行业的发展与科技的进步,各行各业的信息知识呈爆炸性增长,其中问答系统作为人工智能的代表性产物,积累了极其庞大的问题库。如何从海量问题库中提取出简短且准确的信息,已经逐渐成为众多研究者所面临的一个巨大挑战。其中问答系统中的相似性问题检测(问句匹配)就是解决该问题的一种有效方法。如何准确的表征出问句所表达的语义信息是问句匹配中一个至关重要的步骤。目前比较常用的文本表征模型是向量空间模型(简称VSM),但是由于该模型具有维度高,文本语义信息表征不够精确等问题,因此学者们提出了使用词向量来构建问句向量的思想,其中Word2Vec与Glove模型就是比较常用的两种词向量训练模型。本文基于这两种词向量模型对常见的问句向量构建方法进行了分析,发现其在问句的表征方面都存在一定的缺陷,因此本文提出了基于分类与关键词提取的词性加权问句向量构建法(QWP_CKE),该方法引进了分类算法与关键词提取算法,结合了文本特征词的词性信息和V_TF-IDF加权法,使得该方法能够更充分的利用特征词对问句的影响力信息,从而提高问句向量表征的准确性。在问答系统的问句匹配中,通常需要计算问句相似度,选取相似度最高的问句作为问句匹配的结果。本文在深入分析并比较了传统的问句相似度计算方法后,对其优缺点进行融合,将词向量和余弦相似度融入到BM25相似度计算方法中,提出了一种改进的BM25文本相似度计算方法(BM_CS),该方法不仅合理地使用了问句中文本数据的统计信息,还充分考虑到了文本的语义空间距离信息,使得利用改进的BM25算法对问句相似度进行计算,有更好的匹配效果。本文对实验结果进行对比分析,主要验证了三个重要结论:(1)基于Glove的词向量训练模型比基于Word2Vec的模型训练方法在问句匹配方面有更好的匹配效果。(2)本文提出的QWP_CKE问句向量构建方法在问句匹配上,比其他常用的问句向量构建方法匹配效果更好。(3)本文提出的BM_CS算法相较于其他问句相似度计算方法,有更好的问句匹配效果。