论文部分内容阅读
随着互联网技术的飞速发展和普及,网络已经成为大部分人获取信息和进行沟通的工具,其在丰富互联网内容、引导我们走向知识时代的同时,也使用户陷入了信息困境。尽管传统搜索引擎和现有的问答系统缓解了用户需求和信息供应的矛盾,但一方面由于搜索引擎返回的结果为相关长文本的集合,用户仍需要手动从中检索出答案;另一方面现有中文问答系统大都基于知识库实现,需单独构建并维护异常庞大的知识库。为了解决上述问题,本文设计并实现了一套面向开放领域的基于搜索引擎的问答系统。本系统划分为Web服务端、问题分析、信息检索、答案抽取、答案合并和答案排序六个模块,其通过分析用户查询意图,从搜索引擎返回的相关文本挖掘出候选答案集,并在对集合元素进行合并、排序后,返回置信度最高的答案。另外,本文针对问题分析、答案排序问题分别提出了基于多粒度词嵌入表示的中文问题分类算法(Multi-granularity Embedding for Chinese Question Classification,MGE-CQC)和基于注意力的多粒度问答匹配算法(Multi-granularity Question Answering Matching with Attention,MQAMA)。MGE-CQC 通过先后对问题进行分词、词性标注、句法结构分析以获取问题的主谓宾等关键词,从中挖掘出各粒度的连续特征,再将问句细粒度的向量表示逐层传递给粗粒度得到问句特征向量,最后通过softmax激活函数输出问题类别;区别于MGE-CQC,MQAMA在特征工程阶段直接求得各粒度下原生问句特征,再引入注意力机制区分开问题中每个词、单字、部首的贡献程度,逐层传递得到问答匹配的关联向量表示,最后输入到sigmoid函数得问答匹配程度。根据算法评估、系统测试结果,本文提出的问题分类、问答匹配算法有效提高了问答准确率,且系统的可用性也得到了验证。