论文部分内容阅读
随着计算机技术和互联网的高速发展与全面普及,21世纪迎来了数据驱动生活的信息化时代。人们的日常生活逐渐离不开手机、电脑、网络以及各种电子设备。随着生活方式的数字化,人们在生活中的一举一动都会产生数字痕迹,例如,手机通话记录、网页浏览记录、个人消费数据个人医疗数据、出行记录、各种刷卡记录、微博、微信及其他社交媒体数据等,我们将这些数字痕迹所记录的活动称为人们的个人日常行为数据,简称行为数据。个人日常行为数据不但与人们自身息息相关,更具有日益增长的社会价值、经济价值以及实用价值。目前,行为数据在社会管理、商业、金融、电信、社交、医疗等领域都得到了应用,例如城市交通拥堵、个人健康、预防疾病传播、用户情绪预测、职能推荐、社交网络分析、财务管理等。计算机技术和互联网具有生产、采集、存储数据的能力,使得行为数据不断的累积,产生了从多角度多粒度进行数据分析的需求。为此,本文提出了一个多维数据模型,用于从多角度分析行为数据,帮助人们更加了解自己,为个人行为决策提供支持。首先,本文基于个人日常行为数据的内容特征,提出了异构序列网络的概念,设计并实现该网络的构造方法,应用于行为数据以构建行为网络。其次,为了实现对异构序列网络的多维分析,提出了异构序列图立方体模型,简称HS Cube。基于异构序列网络,定义了一种新颖的维度——结构维,结构维是数据元素之间根据逻辑关系映射得到的图的拓扑结构的集合,包括三个层次:顶点维、边维、子图维,并说明维度层次的定义;同时重定义了度量,将度量分为内容度量、数值度量、图度量三种类别,分别用于了解数据元素的内容信息、数据统计值以及数据元素之间的相互关系。基于结构维和度量,给出了每一维度聚合图的计算方法,再根据维度层次将所有聚合图组建成图立方体。然后,基于图立方体重定义了 OLAP的基本操作:上卷、下钻、切片、切块的操作语义,来实现对异构序列图立方体的遍历与查询。同时,为了从功能上向用户提供友好的查询接口,规范化了几种立方体查询模式:简单查询、集合查询、序列查询以及复杂查询。最后,本文设计了图立方体系统框架,给出了聚合图计算算法与OLAP的实现算法,并设计了图立方体的部分物化策略;使用图数据库工具实现了立方体模型,并给出了基于个人日常行为数据应用实例的案例展示。