论文部分内容阅读
随着电子科学技术的快速发展,使人类行为的大量细节数据能够被记录下来。这些大规模的数据包括从商业记录到智能电话通信,使研究人员能够定量的分析和定性的研究人类动力学。人类行为中的各种模式吸引了大量的关注,对人类行为的深入理解有助于揭示大量社会经济活动中复杂现象的起因。另外,研究人类行为也有重大的科学和应用价值,从商业推销、国防事业到推荐及行为预测等。例如,自从人类交互行为和移动行为中的非泊松统计特性被发现以来,越来越多的科学家关注这些特性对传播动力学的影响。在本论文中,主要包含以下四方面内容:1)从在线行为到离线行为,从个体层面到群体层面的不同类型用户行为的实证分析;2)对人类行为实证数据中观察到的不同模式特征的建模分析;3)研究人类接触活动中非泊松统计特性对疾病传播的影响;4)最后,本文给出了人类时空行为在推荐和行为预测中的作用。首先,分析了真实生活中巨量的数据,包括短消息、看电影、在线交易、书签收藏、微博转发以及人类兴趣轨迹等不同在线和离线行为轨迹。实证结果显示出这些行为中具有一些共有的统计特性,包括1)用户活动数目、用户活跃性及活动间隔时间都服从胖尾分布。2)用户活跃性和间隔时间分布的负相关性。3)群体用户的媒体评分行为服从自相似和长程关联特性,在个体层面却存在极小的关联指数和长程的反关联特性。4)人类兴趣行为中三种基本量,用户连续兴趣长度、用户再次访问特定兴趣时间以及兴趣排名都服从类幂律的胖尾分布。5)用户访问论坛的次数和该论坛对应的访问者数目服从幂指数为0.75的幂律关系。6)通过对用户探索新学术论坛过程研究,证实用户在学术论坛的扩张过程服从幂指数为0.54的幂律关系。7)用户在不同学术论坛返回的物理间隔时间和次数分布都服从幂律分布。8)用户平均访问次数??及其对应的波动性服从指数为1.2的超线性的关系:~??等等。其次,为了拟合实证数据中观察到的一些规律模式,针对不同规律分别给出了具有合理解释的模型。这些模型包括:1)为了区分内在机制策略(高优先级策略)和外在因素(活跃性随着时间变化)对人类活动间隔时间分布的影响,提出了一种新的称为相对时钟的计时方法。使用了一个模型,该模型中用户活动行为遵循固定概率或者服从幂律分布,而且全局活跃性保持不变或者随时间周期变化。结果显示由全局活跃性异质性所造成的胖尾间隔时间分布可以由相对时钟方法消除。2)为了模拟兴趣活动中的胖尾分布,采用了一个有偏的随机游走模型,该模型包括优先返回已访问过的兴趣、探索新兴趣和惯性效应三种特征。3)学术论坛访问中所观察到的标度律暗示了其内在的机制,为了刻画这种机制,使用一套基于探索和带记忆效应的偏好返回模型。4)为了模拟人类移动活动过程中的超线性标度律现象,使用包含两种必备特征:偏好返回和探索的模型来拟合实证观察结果。再次,关注人类非泊松统计特性对层次网络传播过程的影响。一方面,研究了人类接触活动中无标度分布律对疾病传播过程的影响。研究结果表明,和同质接触模式或者随机接触模式相比,用户层次网络结构及其延迟之间的关联能显著的降低疾病传播速度,而且导致不断向上的多峰特征。更重要的是,高层初始种子节点会引起更大的不确定性,而低层初始种子会导致几个对应的不确定性峰值,使对疾病的预测变的困难。另外一方面,又讨论了基于种群模型框架的层次网络的疾病传播模型,该模型中个体沿着网络连边随机进行游走。研究结果表明了疾病传播峰值时间0和种群密度??之间存在类似漂移幂律分布的负相关关系,同时也表明0和网络规模之间的对数正相关性。这两种现象都可以由疾病传播过程中波动的渐近增大来解释。此外,还定量的讨论了边界控制过程对层次网络中疾病爆发延迟有效性,结果显示移动策略有效性非常有限,但是对种群密度、感染入侵检测以及感染地区多样性却存在显著依赖。实验结果表明了人类空间移动、网络拓扑结构和种群因素影响对疾病传播和控制都存在重要影响。最后,我们研究了大数据环境下用户行为在推荐和行为预测方面的应用。协同过滤推荐系统是一个广泛应用的推荐算法,但是,随着人类行为数据量的增多,该算法的计算复杂性也越来越大,很难在应用于大数据环境下。因此,采取将基于用户的协同过滤算法部署于一个大数据计算平台上面,来解决协同过滤算法的数据爆炸问题。为了预测个体下一次行为(或者轨迹),全面分析了个体的移动特征,发现人类移动特征的异质性和弱周时间无关性。利用手机数据,同时使用不同的基于用户移动特征的预测因子来预测用户行为轨迹,结果显示这些都有助于预测精确度的提高。再者,通过将不同人类移动过程中时空特征因素混合策略,开发了一种精确度很高的预测算法。