基于CNN语义匹配的自动问答系统构建方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chenglian_chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术的迅速发展,用户对网络资源的获取方式也在不断的变化。从最初的黄页查取到之后的传统搜索引擎,再到现在的智能问答机器人直接获取答案,这种变化其实是计算机在自然语言理解和信息抽取方面取得的重大进展所推动的。用户越来越倾向于用更简单的方式获取信息,这也就要求计算机拥有更强的语言理解能力。近年来,越来越多的科技公司和研究机构开始进行智能问答机器人的开发,如苹果公司的智能语音助手Siri、微软互联网工程院发布的微软小冰,而自动问答模块正是智能问答机器人中极为重要的一个模块。因此,自动问答领域已经成为了目前人工智能研究的一个热点,而在该领域各种新型机器学习方法的应用也令问答系统的智能水平不断提高。本课题的研究目的是构建一个针对常见问题的自动问答系统。本课题的主要研究内容包括开放式的语义匹配语料集的构建、语义匹配算法设计、自动问答系统构建。针对目前在语义匹配领域还没有一个开放的中文语料集,而目前使用最广泛的MSRP语料集又存在数据量较小的缺点,本课题构建了一个使用于中文问句匹配的开放式语义匹配语料集。基于构建的语料库,本课题针对短问句的语义匹配算法进行了相关的研究,通过使用词向量来进行问句的表述,对比了传统的基于相似度的算法、基于卷积神经网络的算法以及基于注意力机制的卷积神经网络的算法的优劣性,并作出选择。其中本课题所改进的基于注意力机制的卷积神经网络算法既具有能够提取高层的抽象语言特征的优点,同时又针对一些有效的底层特征进行了自动选择,因此取得了优于其它几种方法的效果。基于上述的语义匹配模型以及传统的信息检索和语义分析的技术,本课题搭建了一个自动问答系统用于阿里巴巴公司内部特定领域的常用问题的自动回答。本课题的原始实验语料主要来自于百度知道及阿里云客服,在对这部分语料进行处理之后将它们作为标准数据集进行模型的训练。通过对各个模型进行对比实验可以发现基于注意力机制的卷积神经网络模型取得了最好的效果,F1值达到了78.3%。本课题在应用阶段构建了一个针对电商领域的自动问答系统,使用容器服务对系统进行线上部署,系统返回的准确率达到了84.7%。
其他文献
采用罕山白绒山羊对内蒙古白绒山羊进行导入杂交,对其杂交效果进行了初步分析.结果表明:杂交后代在生产性能方面提高幅度较大,在绒毛品质方面,除绒纤维细度增加不明显外,伸直
羊的皮肤组织结构既有种间特征,又与皮、毛、绒的产量和质量有密切的关系,它决定了羊皮的牢固性和耐用性及其利用价值和商品价格,羊毛产量及品质特征、绒山羊的生产性状和产
我国新企业会计准则包括1项基本准则和38项具体准则,成为我国会计史上的又一重要里程碑。文章对新会计准则中公允价值运用的特征作了阐述。
西方文学理论是中国当代文论学科研究中的一个重要分支,它以全球的开放视野去关注和研究自古希腊以来的西方文艺思潮迭起和文学理论变迁。
英国乡绅的兴起固然是多种因素共同作用的结果,但最基本的因素应当是亨利二世的军事改革、商品经济的兴盛、圈地运动和宗教改革。乡绅的兴起打破了英国的传统社会结构,加速了
对6种南澳引进牧草用酸加热法提取叶蛋白,并对叶蛋白产量,蛋白质含量及所含氨基酸组成进行了测试,分析其利用价值。
在西藏南部大片中生代地层分布区中,沿拉轨岗日--邛多江-带低水分岭主脊,断续分布的穹窿构造或短轴背斜的核部,出露有中、深变质的基底岩石地层体。东西断续分布长达450km,最厚在于6000m。岩石
1青海骆驼的来源和养育史据查资料查阅,青海骆驼大约始于公元310年,青海省志第一册记载,"吐浴浑人是东胡鲜卑人一支,公元310年迁至青海省东南部,甘肃西南部交界处,游牧范围甘