论文部分内容阅读
Web2.0是互联网时代的核心理念。社会科技的进步扩大了人们的知识需求,用户在寻求答案的过程中已经不再局限于第一代“关键词搜索式”网络问答系统,社会化问答社区成为用户“提出问题-解决问题”的首选方式。社会化问答社区具备社交性、互动性和分享性特征,针对某一问题能够产生多种优质答案,提问用户在浏览的过程中对答案进行再次筛选,这也促使了社区意见领袖的出现。意见领袖一方面借助问答社区平台提出问题,获取个体所需知识;另一方面为了实现自我价值,平衡被尊敬和被需要的心理需求,他们会分享更多的信息,满足其他用户的知识需求。基于社交网络关系的链接、个人知识获得的满足感、社区意见领袖自我价值实现的需要,更多的用户被吸引过来,形成比较稳固的社会网络关系,从而产生了提问、回答、评论等信息行为。由于用户所回答的问题往往与用户的兴趣存在直接的关联,也就是说用户答题行为的产生是建立在用户兴趣的基础上,用户只有对某类问题感兴趣,才会对该类问题进行回答。基于用户兴趣与所答问题之间的关联,本文从用户回答的问题入手,通过构建问题话题预测模型实现对问题话题的识别,并根据模型预测问题话题的概率,结合用户回答某一话题的概率,从而预测出用户对某个问题的答题概率。同时用户所回答的问题都存在问题标签,而问题标签是关联问题内容和问题话题的重要信息。因此我们可以从用户回答的问题角度来预测用户回答某个问题的概率。本文的工作主要包括以下几个方面。设计并生成构建循环神经网络模型需要的数据集:结合当前已有的微博转发预测方法以及应用神经网络实现对广告点击率等多领域进行预测的方法,通过分析社会化问答社区用户及问题特征,采用爬虫技术等方式在互联网上收集社会化问答社区用户和问题的相关指标,通过特征向量方法将收集到的数据整理成循环神经网络能够接收、处理的数据。设计并构建社会化问答社区用户答题行为预测模型:实现对社会化问答社区用户答题行为的预测,首先需要建立基于循环神经网络的问题话题预测模型,运用循环神经网络(RNN)网络架构,根据RNN的正向传播及反向传播算法,配置开发环境并通过Tensor Flow框架将该神经网络实现。根据已收集到的话题及问题相关数据,从中选取问题内容、问题标签等特征作为模型的输入,构建基于循环神经网络的问题话题预测模型。依据模型的输出结果得到问题的话题及概率值,并结合用户话题回答概率,预测用户回答某一问题的概率。通过实验进行循环神经网络模型参数优化并进行性能测试:使用循环神经网络模型对社会化问答社区用户回答的问题话题进行学习,不断通过实验将模型参数调优,得到最优化的预测模型,进而通过该模型实现问题话题及其概率的预测。在此基础上,从中选取三条问题和预测结果,从循环神经网络模型预测的结果是否符合其输出层Softmax函数的特点,是否符合知乎检索结果以及知乎的问题/话题映射关系三点出发,证明了本文RNN预测模型的有效性,并结合学习率和缺损率指标对模型进行了评估。本文从用户所回答的问题角度出发,将循环神经网络模型用于答题行为预测的研究,搭建了基于循环神经网络的问题话题预测模型,并结合用户的话题回答概率,预测用户对某个问题的答题概率。本课题不仅能够充分挖掘用户和问题的关键特征,还能为其他领域的细粒度预测提供一定的研究基础,对于兴趣问题的推荐、热销商品的发现乃至商业营销策略的实施也具有重大研究价值。虽然本文通过运用机器学习算法通过构建问题话题预测模型,预测了社会化问答社区用户的答题概率,具有一定的理论价值和实践意义,但是有关深度学习的一些技术还需要优化和完善。