论文部分内容阅读
随着移动设备和移动服务的高速发展,人们的日常生活与各种形式的在线社交网络也息息相关。每时每刻人们都在这里汇集并生成大量的数据,这些数据中蕴含着丰富的用户行为信息,因此对于这个巨大的数据源的研究是非常有意义和必要的。然而,大量的不确定性知识存在于对这些用户信息数据的研究挖掘中。以社交网络中的推荐算法为例,对于某一部分用户我们知道他的过去的信息,如何利用这部分信息,结合与该用户较为相似的用户团体行为,对其未来的选择倾向做出更为精准的预测是我们希望达到的目标。实际上,如何清晰地展示和度量用户相似性这种不确定性知识,一直是商品推荐和社交网络用户关系演化等研究进程中的巨大挑战。基于此,本文基于贝叶斯网络这一重要的概率图模型提出一种用户相似性发现和度量方法。结合拓扑结构和概率推理的特性决定贝叶斯网络对于不确定知识的表达和发现非常具有优势。国内外基于贝叶斯网络模型针对社交用户用户团体的研究处于较新阶段,尤其是在大数据下的基于贝叶斯网络模型的研究。在基于贝叶斯网络的社交用户相似性研究方面,徐娟(2015)[39]在文中利用DBLP(DBLP,Data base systems and logic programming)数据集在Hadoop软件中实现了大规模数据下的贝叶斯网络构造。但其在该文中仅针对DBLP网站的用户相似性度量给出推理预测,对于此模型的理论性,数据自身属性,以及在其他数据情况下的延伸应用并未给出详细解释。本文中对于贝叶斯网络模型给出更为详尽的理论知识解释,在对数据集进行了更新之后,首先对于DBLP数据集本身做出研究,在定性判断出用户之间存在合作关系之后,基于贝叶斯网络对于相似性进行度量。又因Hadoop软件对于硬件设施条件的要求较高,本文决定使用Python软件实现模型构建的算法,以验证用户相似性贝叶斯网络的构建效率、收敛性。本文的主要研究成果如下:(1)DBLP数据集的处理。对于数据格式进行解析和转换,并利用FP-Growth算法挖掘得到在DBLP网站用户的论文合作之间,存在一定的相关性,且不同论文数量产出情况下的用户之间的合作性存在差别。(2)社交网络中的用户相似性贝叶斯网络的建立。本文提出用户相似性贝叶斯网络(USBN,Users Similarity Bayesian Network)模型结构。在用户相似性贝叶斯网络中,利用有向无环图来表示用户节点间的条件依赖关系,用计算得到各节点对应的条件概率参数表定量描述其节点之间的依赖关系,通过所构的用户相似性贝叶斯网络的图结构,模拟出社交网络中的用户关系,体现用户之间真实的强弱关系,并基于用户相似性网络的推理功能得到用户的间接相似性。(3)基于用户相似性贝叶斯网络的仿真实验。本文最后基于Python程序语言实现相关算法,并利用处理过的DBLP数据集验证了USBN模型的准确性,测量出模型的稳定性较好,一定规模数据下的运算效率较高,并提出对用户贝叶斯网络进行属性加权的改进方向,目的在于减少网络节点,精简网络结构,以提高运算效率。DBLP作为计算机领域重要的英文论文数据库,对此数据库本身的研究也是非常有必要的。考虑到目前国内外基于DBLP数据集的研究分析文献很少,本文对其数据进行一定的处理和分析,有望对于此方向的研究提供参考。