面向网络自媒体的空间数据挖掘研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:yoyo220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间数据挖掘(SDM,Spatial Data Mining)是发掘空间数据库或者是空间实体中蕴含的消息以及实体间的空间关系的学科。在空间数据挖掘中包含着聚类分析法、空间分析法、数据可视化方法等主要方法。其中聚类分析法是指将数据集中的样本按其相似性划分到类簇中,同一类簇中样本间的相似性较高。微博平台每天发布着TB级的数据,这些数据当中隐含着关于社会和生活方方面面的信息。本文将每一个微博用户看做一个空间实体,使用聚类分析方法对微博中带有位置属性的数据进行数据挖掘,以发现微博数据中蕴含的与当下社会和生活相关的热点词,并通过可视化的手段将聚类结果中的样本呈现在地图上,以研究其空间分布状况。其中聚类分析法用到的主要算法是k-means算法;算法的实现上使用hadoop加mahout的分布式计算平台。并在该平台基础上对比了kmeans算法与Canopy算法优化后的k-means算法在文本聚类中的区别,以及两个算法在不同输入参数的环境下,收敛速度、迭代次数、簇间距离的变化情况;最终得到经过Canopy算法优化的k-means比普通的k-means聚类质量要明显提高,但是在文本类簇的主题方面,并没有产生很大的影响,只是降低了类簇间的相似性,防止了一个主题多个类别的情况;在聚类的基础上,针对类簇中样本,依据文本的相似性和地理位置上临近性做了用户相似性评价。可视化分析使用ArcGIS以及WebGIS来实现,对类簇进行核密度分析,再做渔网栅格化分析可以使离散的类簇样本具备邻接性,也能够让我们直观的看到类簇主题的主要分布情况。
其他文献
本文基于模糊综合分析法,研究了影响房地产价格波动的因素。分别建立宏观经济因素、供需因素、区位因素、内部调控因素四个一级指标,再细分二级指标,通过层次分析法确定各影
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
珍珠为传统珍贵药材,过去都以天然的海水珍珠供药用,价格昂贵。近年来开展河蚌养珠,产量越来越大,价格便宜,能否用淡水珍珠代替海水珍珠治疗有关疾病,我们对其化学成分进行了
在家族企业的发展历程中,为了提高所1拥有的生产性投入的产出,企业的最初的所有者通常会在保证控制权的情况下,让渡一部分所有权给其他生产性资源的所有者,以集中资本,达到最
目的:探索构建优质、先进的医院药学管理模式的策略。方法:分别采用SWOT法分析学科发展现状、依据SMART原则制订发展目标、运用PDCA法则促进药事质量改进、建立KPI考评体系以提
近年来,共享经济发展起来,互联网进一步普及,信息与知识借助互联网跨越了时间和空间,迎来了信息全民共享的时代。在这种背景下,社会化问答平台崭露头角,社会化问答平台作为一个知识共享的平台,能够支持用户合作在线编辑文本,形成一种新的用户内容生产模式,即“提问-回答-反馈”模式,从而形成信息社区和社交平台的综合体。用户创造内容的表现形式是提问与回答,影响社会化问答平台发展的关键性因素,是问答质量的高低。然
1.认识交通标志,遵守交通规则,做到平安上学和回家。2.熟悉学校周围的交通环境,不去危险地方。3.学习表达、讨论、合作的技能,发展自我约束能力。
印染工业生产中大量染料废水排放进入环境,对水生生物及人类健康造成威胁。为减少染料废水污染,本研究制备了一种MnFe2O4@硅藻土复合材料吸附剂(MnFe2O4@DE),对废水中孔雀石
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
销售是用物品及服务满足客户需求的过程。药品营销是医药产业价值链上的重要环节,关系到企业的生存与发展,所以如何提高药品营销业绩至关重要。本文对提高药品销售业绩的策略