论文部分内容阅读
随着现代信息技术以及计算机技术的飞速发展,互联网中产生了大量的数据可供挖掘使用,同时随着无线通信技术的快速发展,产生出了大量的移动对象数据,这些数据中蕴含着移动对象的行为信息,体现了个体及群体的时空动态性,通过分析目标用户的移动数据可以帮助我们了解个体及群体的行为规律、发展动向等信息。其中,群体识别一直是备受关注的热点,广义上的群体识别是指将目标对象根据指定的特征信息区分为各个团体进而识别出各个团体的行为,具体主要研究集中在群体行为识别及群体异常识别等领域,侧重点各有不同,具有重要的研究价值与广阔的应用前景,如行为预测、目标跟踪、安全防护以及交通流量分析等。本文采用数据挖掘方法,根据用户移动轨迹信息提取其停留点,进而利用一种快速简便的聚类算法挖掘用户的停留区域,同时结合POI信息挖掘与停留区域相关的语义信息,将与用户停留区域相关的地理位置信息和语义信息作为用户的特征信息,自定义了用户相似度公式,并通过共享最近邻聚类算法对用户进行聚类以挖掘其中具有强关联性的群体。实验表明,本文提出的方法对具有强关联性的特殊用户群体挖掘效果良好,为后续的监控跟踪提供了良好的技术支撑。本文主要的研究工作如下:1、提出了一种分层提取停留区域地理位置信息的方法。利用用户轨迹信息中的地理位置和时间标签,检测其在某段时间周期内的停留区域以及到访各个停留区域的频繁程度,实现了对目标用户停留区域地理位置信息的快速准确挖掘。2、提出了一种基于POI信息和LDA主题模型的语义信息提取方法。POI信息中包含的类别信息一定程度上可以反应出用户行为活动,用该信息作为语义,并采用LDA对信息文字隐含主题进行建模,得出用户语义信息概率分布。3、提出了一种基于权重的用户相似性度量方法。本文结合了用户地理位置信息、语义信息及各个位置对应的到访频度定义了用户相似度公式,充分利用用户轨迹数据中包含的信息体现用户特征。4、提出了一种基于共享最近邻的用户群体聚类方法。采用这种强调用户之间紧密关系程度的聚类算法可以有效去除大量噪声点,发现紧密关系群体。