论文部分内容阅读
随着信息化技术的迅速发展,用户对网络资源的获取方式也在不断的变化。从最初的黄页查取到之后的传统搜索引擎,再到现在的智能问答机器人直接获取答案,这种变化其实是计算机在自然语言理解和信息抽取方面取得的重大进展所推动的。用户越来越倾向于用更简单的方式获取信息,这也就要求计算机拥有更强的语言理解能力。近年来,越来越多的科技公司和研究机构开始进行智能问答机器人的开发,如苹果公司的智能语音助手Siri、微软互联网工程院发布的微软小冰,而自动问答模块正是智能问答机器人中极为重要的一个模块。因此,自动问答领域已经成为了目前人工智能研究的一个热点,而在该领域各种新型机器学习方法的应用也令问答系统的智能水平不断提高。本课题的研究目的是构建一个针对常见问题的自动问答系统。本课题的主要研究内容包括开放式的语义匹配语料集的构建、语义匹配算法设计、自动问答系统构建。针对目前在语义匹配领域还没有一个开放的中文语料集,而目前使用最广泛的MSRP语料集又存在数据量较小的缺点,本课题构建了一个使用于中文问句匹配的开放式语义匹配语料集。基于构建的语料库,本课题针对短问句的语义匹配算法进行了相关的研究,通过使用词向量来进行问句的表述,对比了传统的基于相似度的算法、基于卷积神经网络的算法以及基于注意力机制的卷积神经网络的算法的优劣性,并作出选择。其中本课题所改进的基于注意力机制的卷积神经网络算法既具有能够提取高层的抽象语言特征的优点,同时又针对一些有效的底层特征进行了自动选择,因此取得了优于其它几种方法的效果。基于上述的语义匹配模型以及传统的信息检索和语义分析的技术,本课题搭建了一个自动问答系统用于阿里巴巴公司内部特定领域的常用问题的自动回答。本课题的原始实验语料主要来自于百度知道及阿里云客服,在对这部分语料进行处理之后将它们作为标准数据集进行模型的训练。通过对各个模型进行对比实验可以发现基于注意力机制的卷积神经网络模型取得了最好的效果,F1值达到了78.3%。本课题在应用阶段构建了一个针对电商领域的自动问答系统,使用容器服务对系统进行线上部署,系统返回的准确率达到了84.7%。