论文部分内容阅读
随着计算机科学的快速发展,网络已成为人们日常获取信息和知识的重要途经,网上的数据急速增加,用户很难快速地从搜索引擎中获得自己所需的有效信息。自动问答系统的出现允许人们用自然语言的方式进行提问,将用户所需的答案直接返回,便捷而高效。在自动问答系统的问句理解部分,复述生成技术可将用户以自然语言提出的复杂问句改写成一系列与之语义相同但形式不同的问句,这些问句中有一部分结构规则,避免了用户提问的不规范性,可大大简化系统对问句的理解和处理难度,对于提升自动问答系统的效果有着重要意义。当前缺乏大规模高精度的中文复述问句语料,我们选用百度知道的“相似问题”作为本次研究的数据来源,但该资源中很多并不符合中文使用规范,需要对复述语料资源进行重新构建,以便后续的技术研究。本文研究内容分为中文复述语料资源库的构建方法和中文问句复述生成方法两部分。中文问句复述生成方法又分为:基于模板匹配的问句复述生成方法和基于序列到序列的问句复述生成方法。首先,本文提出利用关键词提取方法和相似度计算方法进行中文复述语料资源库的构建。利用基于词引力值排序的关键词方法对问句进行关键词抽取,若一个相似问题对对应的关键词相同,则将其视为复述;利用基于句子间相似及相异信息的CNN模型对相似问题进行相似度计算,若其得分高于阈值,则将其视为复述。实验证明,两种方法对于提高语料库的准确率都是有效的,且相似度计算方法优于关键词提取方法。其次,本文提出一种基于功能词和依存关系的模板匹配生成方法。在该复述生成方法中采用分词、词性标注、命名实体识别、功能标签替换等方法提取问句模板,保留每个问句的特有成分,所得到的模板不仅包含一定的结构信息,更包含了语义及上下文信息。同时我们通过依存关系分析,引入了句式简化方法,提高了问句模板的兼容性。对于某一原始问句,改写后通过候选生成句抽取模块进行评价。实验证实,本文提出的基于模板匹配的问句生成方法较现有的其他复述模板表达方法更为有效。最后,本文提出一种基于序列到序列的问句复述生成方法,将复述生成任务视为一种机器翻译任务,在基础的Sequence to Sequence结构上,分别采用双向LSTM和残差LSTM模型对学习到的内容进行更深层次的表示,并引入注意力机制,使得解码过程中的每个时刻都有能力获取到上下文信息,提高了输出序列和输入序列的相关性。实验证实了引入注意力机制的残差LSTM方法对于该复述生成任务的有效性。