论文部分内容阅读
知识问答社区为用户分享和获取知识提供了一个重要的交互性平台,用户可以通过该平台提交和回答问题。由于社区中用户的数量与日俱增,提问者提出的问题可能几天以后才获得答案,回答者对于自己接收到的问题可能并不感兴趣。学者们提出了各种各样的专家推荐机制来解决这个问题,然而目前的大部分机制推荐的专家都无法及时的回复用户提出的问题且推荐结果的最佳答案覆盖率偏低。另外,在社区中一个开放型问题通常会对应多个答案,而通过社区中的内部规则选出的最佳答案往往并不具有完整性,无法全面的解答该问题。随着深度学习技术已经广泛应用于完成自然语言处理领域的文本摘要任务,本文尝试将该技术引入到知识问答社区中,用于答案文本摘要。然而,目前的文本摘要算法仍存在生成的摘要语义不通顺及摘要的自我重复等问题。针对现有的研究工作的不足,本文具体所做的工作如下:(1)我们提出了一种面向知识问答社区的专家推荐机制,该机制结合经典的深度结构化语义模型(Deep Structured Semantic Models,DSSM),从用户回答问题的数量、问题的难度值以及用户回答问题的平均响应时间这3个维度来构建随机转移概率矩阵,提出了主题敏感性回答者排序算法(Topic Sensitive Answerer Rank,TSAR)。首先,使用深度结构化语义模型计算出问题文本和用户文本之间的相似度,根据相似度值的大小筛选出候选专家群并构建用户问答关系有向图;然后使用主题敏感性回答者排序算法对图中每个节点用户的权威度值的大小进行计算;最后根据权威度值的大小生成专家列表并推荐给用户。(2)我们提出了一种基于多层注意力机制的答案摘要算法(Answer Summarization Algorithm based on Multi-layer Attention Mechanism,ASMAM)。该算法在传统的序列到序列(Sequence to Sequence,Seq2Seq)模型的基础上,为了进一步提高文本的表征能力,在进行句子编码和文本编码时分别引入了自注意力机制和多头注意力机制。为了解决循环神经网络(Recurrent Neural Networks,RNN)的“梯度消失”问题和长短期记忆网络(Long Short-Term Memory,LSTM)的参数过多问题,在编码器端和解码器端的神经元都使用了门控循环单元(Gated Recurrent Unit,GRU)。在解码时为了避免因解码器自身的隐藏状态导致生成的摘要自我重复,引入了内注意力机制。(3)最后,将本文中提出的“面向知识问答社区的专家推荐机制”和“基于多层注意力机制的答案摘要算法”运用到原型系统中。当用户向知识问答社区提交了新的问题后,使用专家推荐机制向用户推荐有能力、有兴趣并且可以及时回复的候选专家并以列表的形式进行展示。对于开放型问题对应的多个答案文本,通过系统中的答案摘要模块对多个答案进行概括和浓缩,便于用户快速的获取一个全面的答案。