论文部分内容阅读
当今互联网行业飞速发展,人工智能引领的科技浪潮正在把人类社会从互联网2.0时代推向互联网3.0时代。在全新互联网3.0时代提出的设想和建设中,互联网将理解用户需求并为之提供服务。互联网会对用户数据了如指掌,知道用户有什么、想要什么以及用户的行为习惯,并依据数据进行资源筛选匹配,直接给用户提供服务。如此一来,人们从互联网寻求问题答案、信息知识时,交流途径将变得越来越多样化。从传统的搜索引擎时代,演变到用户与用户之间交互式的问答知识社区时代,一步一步走向基于大量知识语料训练得到的问答机器人时代。传统搜索引擎对知识和答案的检索是一种纯粹的关键词查询方案,通过这种渠道检索到的问题答案往往没有针对性,不能准确理解用户检索、询问意图,且检索结果以网页相关信息列表呈现,包含大量无用信息,导致难以快速定位结果的问题;用户之间交互式的问答社区虽然部分消除了通过机器进行语义理解的环节,但同时又产生了时效性问题,同时需要人为干预以保证社区答案知识的准确性;通过语料知识训练的智能问答机器人既能在一定程度上理解用户检索问题的语义,又能保证回答的即时性和准确性,它将会成信息检索、自动问答领域中更高效、更便捷、更及时、更准确的解决方案。本文以浙江汇信科技有限公司数字证书问答客服系统科研项目为背景,设计并实现了基于语句相似度计算的FAQ问答。主要实现了包括问答知识库梳理、语言模型设计与实现、问答接口设计与实现等主要功能,项目涉及到文本检索、分词、词向量、语言模型、深度神经网络、RestfulAPI、Gunicorn/Gevent等关键技术。通过浙江汇信科技有限公司的内部对接评测,该项目开发的智能问答客服机器人最终准确率达到83.75%,达到FAQ问答行业相似水平,远高于其原有基于关键字检索的问答检索方案。目前该算法模型及接口已成功通过各项测试,正在部署系统服务,做最后的上线准备。