论文部分内容阅读
社会化问答网站随着Web2.0时代的兴起不断涌现,人们对社会化问答网站的关注也逐步提升。社会化问答网站融合了社交网站、百科类网站和传统问答网站的优点,它通过三大功能(关注话题、关注问题、关注一个用户)来呈现问题回答的最佳答案和全面的相关知识,并通过信息类聚使人群建立社交关系。随着注册的开放,使作为精英社区的社会化问答网站逐渐大众化,为引导网络信息传播过程中的传播行为,帮助社会化问答网站在用户数暴增时保持内容优质,实现更好地发展,需要针对社会化问答网站的知识传播过程进行分析,发现传播过程的特点及内部规律,为进一步深入探索社会化问答网站提供一定的理论研究基础。 当前针对社会化问答网站的研究局限于问答行为,比如问题的分析、回答质量评估,预测提问者满意程度等。而对一些在社交网站中的热门研究问题,比如好友关系网络结构对于信息传播的影响,消息的扩散规律,转发数预测等缺乏关注,主要原因在于,社交网站记录每一个传播者的传播过程,社会化问答网站只记录总体传播情况,导致传播过程数据不能从社会化问答网站获得。 本文针对社会化问答网站面临的挑战问题,开展了社会化问答网站知识传播过程相关的关键技术研究,主要研究内容包括:研究社会化问答网站知识传播模型,研究知识传播过程的推断方法,研发知识传播分析系统,并以知乎为例进行了实例分析和验证。本文的主要贡献包括以下三个方面: 1.提出了一种描述社会化问答网站知识传播过程的传播网络模型,定义了数据结构、数据完整性约束和模型操作,为传播网络推断奠定了理论基础。 从社会化问答网站的相关概念出发,分析其相互关系,定义了社会化问答网站知识从传播者到接收者的传播过程,归纳出follow,notification,qlink,recommendation这四种可能的知识传播方式,并引入了传播方式优先级假设和首次激活独立级联模型假设。在此基础上,给出了知识传播网络定义。 2.提出了一种社会化问答网站知识传播网络推断方法,包括基于时间切片数据的动态传播网络推断方法和基于达到稳定结构答案的静态传播网络推断方法,实验结果表明推断方法有效。 动态传播网络推断方法是以答案时间切片数据作为输入,把接收者按时间排序,依照传播方式优先级假设,依次判断是否通过follow,notification,qlink,recommendation方式接收到答案,生成基本准确的知识传播网络。静态传播网络推断使用达到稳定结构的答案作为输入,不依赖时间切片数据,减少了采集时间;鉴于静态传播网络推断缺少了点赞者的时间信息,把动态传播网络推断的结果作为已标注数据,使用机器学习的分类方法,推断follow关系,并使用启发式方法依次判断其它3种关系,生成知识传播网络。 3.设计并实现了一个知识传播分析系统,包括数据存储、数据采集、知识传播过程推断、知识传播分析及可视化等功能。以知乎为例,进行了传播规律分析、水军识别和用户影响力分析。可以应用于舆情分析、精准营销、专家发现等领域。 传播数据存储模块使用MongoDB完成数据持久化。数据采集模块中,首先修改zhihu-py3开源库,然后使用zhihu-py3从知乎采集问题信息、答案信息和用户信息。知识传播过程推断模块推断知识传播网络。知识传播分析及应用模块包含了数据可视化分析、知识传播规律分析、社会化问答网站水军识别的功能。