论文部分内容阅读
会话是指一个用户或应用为了完成某个特定任务而提交的查询或请求的序列。会话识别因其能够提供对用户行为模式的深入理解而备受关注。许多研究人员就Web领域和数据库中的会话识别问题做了不懈的探索。其中,使用最广泛的超时方法和基于统计语言模型的方法在特定应用下都取得了良好的表现。交通数据会话是指用户为了完成某个任务而经过的交通路口序列。交通会话识别对于路径预测、拥塞检测、基于位置的服务等应用具有重要的意义。但是,关于交通数据中的会话识别工作非常有限。本文首次提出交通数据中的会话识别问题。首先,我们选用超时方法和基于统计语言模型的方法来进行会话识别。超时方法主要考察相邻交通路口之间的时间间隔对会话识别的影响。该方法认为当两个相邻的交通路口之间的时间间隔大于某个预定的时间阈值时,这两个路口不属于同一个会话;否则,它们属于同一个会话,也就是说这两个交通路口是为了完成同一个任务而被连续经过的。基于统计语言模型的方法不依赖任何时间信息,而是通过衡量交通路口序列的信息改变来进行会话识别。给定一个交通路口序列,通过计算其在数据集中出现的概率来估计该序列的频繁程度,并用信息熵衡量该模型的质量。当一个新的交通路口加入到当前序列中并使得两个序列的熵值的改变量超过一定阈值时,就认为该路口是一个新的会话的开始。无论是超时方法还是统计语言模型,在进行会话识别时,都只考虑了一种影响因素。也就是说,超时方法仅仅把时间因素作为会话识别的依据,而统计语言模型主要考虑交通路口序列的全局规律性。时间信息对人们的行为有着很大的影响,人们的行车路线通常能够展现出很大程度的时间规律性。直觉上来说,相邻两个交通路口之间的时间间隔越大,它们属于同一个会话的可能性就越小。因此,我们提出了一个时间衰减函数来衡量相邻路口之间时间间隔对会话识别的影响。另外,人们在实际生活中,往往习惯选择自己熟悉的路径。因此,对于一个用户来说,经过的交通路口序列会呈现出一定的规律性。基于时间因素和路口序列规律性对会话识别的共同影响,我们提出了一种改进的统计语言模型,该模型在传统语言模型的基础上融合了时间因素。假设存在一个属于同一会话的路口序列,相邻路口之间都不存在较长时间的停留,而且这个序列频繁地按照特定顺序被经过,那么这个序列的熵值改变量及时间影响函数值都会很小。然而,当某辆车经过一个新的与当前会话不相关的路口时,该路口的引入将会引起该序列熵值的增大。另外,如果该车辆在此路口与先前序列之间有较长时间间隔的话,也会使得新序列的时间影响函数变大。不论是熵值的增大还是时间函数值的增大都可以作为会话边界识别的标识。最后,我们在真实的交通数据集上进行了大量的实验来验证我们提出的基于改进统计语言模型方法的有效性。实验结果表明我们的方法优于只考虑一种影响因素的超时方法和传统的基于统计语言模型的方法。另外,通过比较分析三种方法性能上的差异得知时间因素比全局规律性在会话识别中的影响更大。