论文部分内容阅读
近年来,随着移动互联网技术的发展和智能移动终端的普及,人们越来越习惯于通过智能移动终端上的应用随时随地获取或分享信息。研究中形象地将这些由人们标注而产生的含有地理位置信息的数据称为标绘数据。人们在使用此类应用的过程中,产生了海量的含有地理位置信息的标绘数据,这些数据的规模呈爆炸性增长并且与人们的生活越来越紧密相关。标绘数据大规模的增长出现,为许多研究领域带来了新的机遇和挑战,吸引了研究人员的兴趣和广泛关注。 与其他数据相比,标绘数据具有独特性质,它不仅仅具有地理位置,同时具有时间属性,在科技的发展与推动下,标绘数据同时还具有数据量巨大,增长速度快,数据结构多样,质量高低不一等特点。此外,标绘数据蕴含的信息丰富,很有挖掘价值,通过数据挖掘手段发现其隐藏的知识,能够更好的提供支持决策服务。 首先本文研究了Web数据获取方法,实现了封装HTTP请求的标绘数据抓取中间件;根据标绘数据的特性及其关联特征,利用空间数据库PostGIS实现了海量标绘数据的存储。然后利用已获取的标绘数据的空间位置特征、用户信息以及位置POI类别信息等,对海量标绘数据进行了初步的清洗和筛选;利用中文分词将标绘数据中的非结构化的文本信息转换为文本特征向量,并通过关系数据库的关键词筛选手段对标绘数据进行深层次的清洗,实现了面向主题的标绘数据提取。最后基于K-means算法、核密度估计法和Apriori算法,将其运用于标绘数据热点挖掘和时空关联规则发现,计算标绘数据在空间上的热点分布区域,分析标绘数据蕴含的空间事件共现等关联模式。 基于上述提出的标绘数据热点挖掘与时空关联规则发现方法,本文以新浪位置微博为例,获取了我国五一、十一假期间旅游标绘数据,运用热点挖掘方法,分析了我国五一、十一假期间旅游热点分布和热力态势情况,运用时空关联规则挖掘方法,研究了旅游目的地与目的地之间的关联规则,客源地与客源地之间的关联规则以及旅游时间与旅游目的与客源地的空间关系之间的关联规则。 结果表明,标绘数据的时空属性特征可应用于数据挖掘研究中,本文形成的标绘数据挖掘思路及方法可发现标绘数据热点与关联规则,将其应用于旅游中,有效的挖掘了旅游标绘数据的热点及时空关联规则。通过热点挖掘,反映了我国假期旅游的热门地区及热力分布,通过时空关联规则挖掘,发现了假期游客景点选择之间、旅客来源地之间及游客出行时间与出行目的地与客源地的空间关系之间的关联关系,为旅游出行决策提供了信息。