论文部分内容阅读
近年来,智能手机的软硬件都得到大大提升。不断被嵌入手机的各种传感器如加速计、麦克风、GPS等在提供丰富功能的同时,还能收集大量与用户相关的传感器数据。这些数据经过一定的处理和计算,便形成了可以描述用户生活的上下文,例如GPS数据可以推测用户所在的位置,加速计可以感知用户的活动,电话和短信记录反映用户的社交等。由于上下文数据反映了用户的生活状态,如何从用户手机的纵向多源上下文数据中挖掘用户的行为模式,是当前研究的热点和难点。论文围绕如何从手机上下文中挖掘用户的频繁模式展开研究,首先对传感器数据进行预处理以获得有用的上下文数据,在此基础上,重点研究了纵向多源上下文的处理技术,进而深入研究了在手机上对个体用户频繁模式的挖掘,最后借鉴众包思想,研究了基于云的群体频繁模式挖掘框架。本文的工作主要体现在以下三个方面:1)不同于以往对时域数据使用固定时间窗口的方法,针对纵向多源上下文数据的特点以及关联规则挖掘的需要,本文提出了一个动态时间窗口算法来处理上下文数据,具体地讲,首先根据用户的交互活动(包括电话、短信、应用软件的使用记录)动态确定时间窗口,2)为了实现在手机上对个体用户频繁模式的挖掘,考虑手机处理能力的限制,本文提出了一个频繁模式挖掘模型,通过对频繁模式的分析定义,确定了两个关键的因素,即用户交互活动的持续时间和出现频率,然后基于传统的Apriori挖掘算法,在支持度的定义上对上述两个因素进行加权,从而获得更加客观准确的频繁模式。此外,挖掘模型还对挖掘结果进行进一步的可视化处理,对用户在不同地方和不同时段的行为模式进行展示,方便用户随时了解自己的日常行为模式。3)在上述研究基础上,针对群体频繁模式的挖掘问题,本文设计实现了一个基于云的挖掘系统,对用户上传的频繁模式汇总后进行二次挖掘。由于不同用户频繁模式的差异,为保证结果能反映群体的特征,本文扩展了Apriori挖掘算法,使用用户频繁模式的支持度和比重作为一个附加权重。云框架使用了百度云应用引擎进行实现,通过实验验证了算法及框架的可靠性和实用性。