基于词向量的问答系统中问句匹配方法研究与改进

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:biiq123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的发展与科技的进步,各行各业的信息知识呈爆炸性增长,其中问答系统作为人工智能的代表性产物,积累了极其庞大的问题库。如何从海量问题库中提取出简短且准确的信息,已经逐渐成为众多研究者所面临的一个巨大挑战。其中问答系统中的相似性问题检测(问句匹配)就是解决该问题的一种有效方法。如何准确的表征出问句所表达的语义信息是问句匹配中一个至关重要的步骤。目前比较常用的文本表征模型是向量空间模型(简称VSM),但是由于该模型具有维度高,文本语义信息表征不够精确等问题,因此学者们提出了使用词向量来构建问句向量的思想,其中Word2Vec与Glove模型就是比较常用的两种词向量训练模型。本文基于这两种词向量模型对常见的问句向量构建方法进行了分析,发现其在问句的表征方面都存在一定的缺陷,因此本文提出了基于分类与关键词提取的词性加权问句向量构建法(QWP_CKE),该方法引进了分类算法与关键词提取算法,结合了文本特征词的词性信息和V_TF-IDF加权法,使得该方法能够更充分的利用特征词对问句的影响力信息,从而提高问句向量表征的准确性。在问答系统的问句匹配中,通常需要计算问句相似度,选取相似度最高的问句作为问句匹配的结果。本文在深入分析并比较了传统的问句相似度计算方法后,对其优缺点进行融合,将词向量和余弦相似度融入到BM25相似度计算方法中,提出了一种改进的BM25文本相似度计算方法(BM_CS),该方法不仅合理地使用了问句中文本数据的统计信息,还充分考虑到了文本的语义空间距离信息,使得利用改进的BM25算法对问句相似度进行计算,有更好的匹配效果。本文对实验结果进行对比分析,主要验证了三个重要结论:(1)基于Glove的词向量训练模型比基于Word2Vec的模型训练方法在问句匹配方面有更好的匹配效果。(2)本文提出的QWP_CKE问句向量构建方法在问句匹配上,比其他常用的问句向量构建方法匹配效果更好。(3)本文提出的BM_CS算法相较于其他问句相似度计算方法,有更好的问句匹配效果。
其他文献
档案管理作为现代企业发展中一个重要组成部分,一直以来备受重视。伴随企业生存与发展环境的变化,尤其是信息化时代的来临,对企业档案管理工作提出了更高的要求。为了适应信
本论述给出线性代数正交变换理论的RMI模型理论,并且应用关系映射反演思想方法论述正交变换理论的教学思路。
施工企业提高效益和扩大市场需要重视质量。本文结合多套工业安装工程的质量控制过程,总结出了一些切实可行的质量控制措施,有效的提高了工程施工质量。通过这些质量控制措施在
近年来,环境污染越来越受到人们的重视,景观设计师企图通过设计来改善我们生活和居住的环境。通过对稻田元素的运用,在景观设计中融入生态设计的理念,设计出具有生态理念的景
【正】我是一个刚入市的新股民,对股市行情不是很精通,面对不断调整的股市经常感到很郁闷。最近着了几期贵刊关于股市的介绍,学到好多知识,特别是这期关于20%见好就收的文章,
期刊
近日,法国第二大运营商SFR宣布,计划放弃自己运营IPTV业务,令后的电视业务选择与法国Canal Plus电视台合作。消息称,SFR与同为维旺迪(Vivendi)子公司的付费电视Canal Plus商谈转售I
本文由毕业生回炉谈起计算机类课程体系整合问题,以软件技术专业为例,从课程体系的整合前提条件、课程体系应有的教学效果及基于工作过程系统化的课程体系建设过程三个方面阐
国外某媒体6月23日报道,中国IPTV用户数量已经居世界第二,而在未来数月内中国将有可能取代法国,成为全球IPTV用户数量最多的国家。
随着思想政治理论课程教学改革的深入进行,高校在提高课堂教学质量方面遇到了不少问题。为了保证思想政治教育教学质量的全面提高,实施教学督导与评价显得尤为重要。思想政治理
大学英语写作教学是大学英语教学中的重要组成部分,也是教学难点所在。在网络时代,充分利用网络技术开展大学英语写作教学是大学英语教学的创新突破口。这需要充分利用网络搜索