论文部分内容阅读
“认识你自己”的神谕早在几千年前便已刻下,而时至今日人类对于自身行为的认识依旧任重道远。在信息革命推动下,互联网时代的到来为我们揭开人类行为的神秘面纱、挖掘人类行为的内在机制提供了契机。鉴于互联网中用户的浏览、交友、选择、购买等行为对与理解人类行为模式具有重要理论意义,以及对电子商务、在线服务等行业具有重要实际价值,本论文将对在线社会系统中的用户行为进行实证分析,并对其行为的内在机制进行建模。首先,对用户在线选择偏好的记忆效应进行了实证分析,并利用马尔科夫过程对记忆效应的机制进行了建模。在线系统往往允许用户对其选择过的产品进行打分,而打分可以在很大程度上反映用户对产品的喜好。根据Correlation Coefficient方法,我们发现用户的选择序列(用户所选产品的平均分序列)与打分序列(用户对其选择过产品的打分)都具有较强的记忆效应。不同于随机情况下的指数分布,这种记忆的长度呈现出幂律形式的分布,也就是说,用户长时间执行相似行为的可能性要比随机情况高得多。通过利用马尔科夫过程描述用户的选择过程,并假设其打分行为完全依赖于选择行为,本文建立了偏好模型对用户偏好的记忆效应进行了刻画。模型中用户的选择行为和打分行为各只有一个参数,通过控制此参数,便可以重现从幂律分布(强记忆)到指数分布(弱记忆)之间的任意形式的记忆长度分布。其次,基于二部分网络模型,分别从网络局部集聚特性以及对产品流行度偏好的角度研究了在线用户兴趣的表征与作用。对于用户—产品二部分网络这一特殊系统,传统集聚系数无法描述其集聚特性,因此基于二部分网络的集聚系数C4得以提出。从用户—产品二部分网络的特性出发,一个用户的C4可以表征其兴趣的多样性。根据C4对用户兴趣多样性的体现,本文发现兴趣最为广泛以及最为单一的用户,其活跃度都处于系统最低水平,而系统中最活跃用户的兴趣多样性往往处于系统中等水平。在对用户行为进行分析的时候,我们不能将同等活跃度的用户一概而论,因为同样活跃度的用户可能有两种截然不同的兴趣多样性形式——非常单一或非常广泛。这种现象不仅仅存在于依赖网络结构的兴趣定义方式,用户基于产品流行度的兴趣多样性也展现出类似的结果。进一步,考虑用户对产品流行度的偏好,从经典的物质扩散和热传导算法出发,本文提出了非平衡物质扩散以及非平衡热传导算法。较之经典算法,本文提出的算法在准确率与召回率等方面都有大幅度的提升。这再一次证明了用户对产品流行度的偏好是用户在线选择行为的重要驱动力。最后,研究了产品相似度的稳定性问题。相似度指标虽然可以度量生物、社会、商务等系统中产品之间的潜在关联关系,但若不稳定则不可信赖并含有大量虚假信息的。一个好的相似度指标应该在不同时间度量两个固定产品之间的相似度,得到相同的结果。在用户—产品二部分系统中,本文对15种经典相似度指标的稳定性进行了分析,发现除Preferential Attachment,Common Neighbor,Adamic-Adar Index以及Resource Allocation Index指标以外的大部分算法,在使用不同样本数据时,得出的相似度矩阵可能完全不同,也就是非常不稳定的。从稳定性的角度出发,结果表明众多的相似度指标可以被分成几个简单的类别,并且同一类别中的指标基本都具有同样的思想以及相似的数学定义,其在数据量变化时的动态过程也是一致的。如此一来,对于任意相似度算法,只需要分析其稳定性、确定其分类,便可以通过对比深入地理解该算法。另外,论文提出Top-n-stability方法,在推荐时只考虑稳定的产品相似度,分析了产品相似度稳定性对推荐结果的影响。实验表明,不稳定的产品相似度类似于虚假信息,通过剔除该部分信息,可使推荐结果的稳定性有大幅度的提高。总之,本文的研究工作对认识人类在线行为有十分重要的意义。围绕在线用户的选择行为、兴趣偏好以及相似度指标的稳定性等若干方面,本文的研究与结论能够帮助我们更深入地理解用户的在线行为模式,为设计在线系统、提高在线服务质量提供了重要的参考价值。也希望本文所提出、研究的问题能够得到更为广泛的关注,对在线社会系统中的用户行为进行更深入的研究。