论文部分内容阅读
个体的日常行为轨迹历程具有一定的重复性和确定性,对这些行为模式进行研究,可以描述一个人的行为特征,并预测其在不久将来的行为,这对于研究评估社交网络人口之间的联系起着至关重要的作用。人类行为预测以及应用在众多领域均被广泛使用,尤其在人人快递等众包系统中。本文将人类行为预测问题转换成分类问题,即已知用户一天中的历史记录,判断其是否会前往某一固定场所。对行为分类的经典算法,例如SVM、决策树、神经网络等算法,缺少对数据的过滤和筛选,以至于在进行算法参数反演的时候,习惯于使用全体数据作为输入数据。但是通过数据分析可知,并不是所有的数据都适合作为输入样本,因而我们这里试图对行为数据的可训练性进行评估,使用了两个评估测度。基于这两个测度,对个体的行为数据进行筛选和过滤,抽取出能够代表整体数据集的样本作为接下来算法的训练数据集合。在这种背景下,本文给出一种阈值限制的方法来分析个体行为轨迹。本文所使用的数据集由100多位受试者的数据组成,每位受试者的数据还包含了50多种属性,这样的数据是很庞大的,所以有必要对数据集进行预处理。本文主要使用数据规约中的属性子集选择方法对数据的属性进行筛选,对不完备不可靠的数据进行过滤,对与文章目的无关或者弱相关的属性进行删除,得到与本文目的相关的、有意义的数据。在进行完数据规约后,对筛选出来的属性还需进一步分析处理。本文将与位置信息直接相关的属性通过设置活动值进行分析整合,得到算法可以直接进行处理的数据,从而在运行算法处理数据时能够更快的得到结果同时也能使结果更准确。阈值限制法通过对数据进行两次过滤处理,在每次过滤处理的过程中加入阈值,这样能够筛选出高质量的样本节点,从而为下一步的预测模型提供优质的训练数据样本。当筛选出高质量的样本节点后,本文运用人工神经网络对筛选过的样本节点进行预测,可以发现当设置合理的阈值时,尽管合理数据降到原来的20%左右,但是数据的可预测性从71.2%提升到95.9%。在实际场景中,可以根据需要进行阈值设置,满足实际需要。实验结果表明阈值CloseTime和PositionChange的设定对提高算法的预测准确率有非常明显的效果。