社会化问答网站知识传播网络推断方法研究及分析应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kakayang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会化问答网站随着Web2.0时代的兴起不断涌现,人们对社会化问答网站的关注也逐步提升。社会化问答网站融合了社交网站、百科类网站和传统问答网站的优点,它通过三大功能(关注话题、关注问题、关注一个用户)来呈现问题回答的最佳答案和全面的相关知识,并通过信息类聚使人群建立社交关系。随着注册的开放,使作为精英社区的社会化问答网站逐渐大众化,为引导网络信息传播过程中的传播行为,帮助社会化问答网站在用户数暴增时保持内容优质,实现更好地发展,需要针对社会化问答网站的知识传播过程进行分析,发现传播过程的特点及内部规律,为进一步深入探索社会化问答网站提供一定的理论研究基础。  当前针对社会化问答网站的研究局限于问答行为,比如问题的分析、回答质量评估,预测提问者满意程度等。而对一些在社交网站中的热门研究问题,比如好友关系网络结构对于信息传播的影响,消息的扩散规律,转发数预测等缺乏关注,主要原因在于,社交网站记录每一个传播者的传播过程,社会化问答网站只记录总体传播情况,导致传播过程数据不能从社会化问答网站获得。  本文针对社会化问答网站面临的挑战问题,开展了社会化问答网站知识传播过程相关的关键技术研究,主要研究内容包括:研究社会化问答网站知识传播模型,研究知识传播过程的推断方法,研发知识传播分析系统,并以知乎为例进行了实例分析和验证。本文的主要贡献包括以下三个方面:  1.提出了一种描述社会化问答网站知识传播过程的传播网络模型,定义了数据结构、数据完整性约束和模型操作,为传播网络推断奠定了理论基础。  从社会化问答网站的相关概念出发,分析其相互关系,定义了社会化问答网站知识从传播者到接收者的传播过程,归纳出follow,notification,qlink,recommendation这四种可能的知识传播方式,并引入了传播方式优先级假设和首次激活独立级联模型假设。在此基础上,给出了知识传播网络定义。  2.提出了一种社会化问答网站知识传播网络推断方法,包括基于时间切片数据的动态传播网络推断方法和基于达到稳定结构答案的静态传播网络推断方法,实验结果表明推断方法有效。  动态传播网络推断方法是以答案时间切片数据作为输入,把接收者按时间排序,依照传播方式优先级假设,依次判断是否通过follow,notification,qlink,recommendation方式接收到答案,生成基本准确的知识传播网络。静态传播网络推断使用达到稳定结构的答案作为输入,不依赖时间切片数据,减少了采集时间;鉴于静态传播网络推断缺少了点赞者的时间信息,把动态传播网络推断的结果作为已标注数据,使用机器学习的分类方法,推断follow关系,并使用启发式方法依次判断其它3种关系,生成知识传播网络。  3.设计并实现了一个知识传播分析系统,包括数据存储、数据采集、知识传播过程推断、知识传播分析及可视化等功能。以知乎为例,进行了传播规律分析、水军识别和用户影响力分析。可以应用于舆情分析、精准营销、专家发现等领域。  传播数据存储模块使用MongoDB完成数据持久化。数据采集模块中,首先修改zhihu-py3开源库,然后使用zhihu-py3从知乎采集问题信息、答案信息和用户信息。知识传播过程推断模块推断知识传播网络。知识传播分析及应用模块包含了数据可视化分析、知识传播规律分析、社会化问答网站水军识别的功能。
其他文献
学位
随着现代计算机技术的飞速发展,数控技术也日趋成熟。为数控产品设计并实现零件加工库是提高生产效率和产品质量的一种有效方法。零件加工库能有效缩短产品的设计和生产周期,提
学位
随着Web的发展和Web复杂性的提高,越来越多的用户开始遇到诸如Web页面加载缓慢的Web性能问题。Web性能的好坏直接影响着业务的成败,对于提供商企业和用户都十分重要,因而有必要
目前,化学交联质谱技术已成为研究蛋白质结构与蛋白间相互作用的主流技术。虽然近几年交联质谱技术有了很大的发展,但由于交联二肽的搜索空间巨大,在计算方法方面的研究相对滞后
人类接受的大量信息都是通过视觉系统加工处理而产生的。图像是一种重要的视觉信息,具有形象、直观、内容丰富等特点,是视觉媒体信息中重要的一种。对图像内容的理解与感知已经
学位
学位
特定事件是指涉及大众的生命和财产安全,对人们的生活产生重大影响,并在互联网上广泛传播和扩散的公共安全事件。对特定事件进行快速检测和发现,为有关部门快速应对和处置争取到
命名实体识别技术对机器自动翻译、问答系统、搜索引擎、信息抽取和文本分类等有重要作用。由于中文内在的特殊性质,识别难度大于英文。本文从数据源的角度出发,针对各种不同数