【摘 要】
:
随着移动终端和地理位置服务的普及,互联网用户的位置信息更容易被获得和积累。分析潜藏在大量用户数据中的区域信息能使企业更好地实现资源管理、人员分配和服务站点建设,减
论文部分内容阅读
随着移动终端和地理位置服务的普及,互联网用户的位置信息更容易被获得和积累。分析潜藏在大量用户数据中的区域信息能使企业更好地实现资源管理、人员分配和服务站点建设,减少因依据行政区域资源配置而导致的浪费。本文以国内某知名分类信息平台移动端经纬度数据为研究对象,实现面向区域信息的类目排序个性化。因该平台市场覆盖程度和用户分享频次不同,经纬度数据在地域上的分布密度差距较大。现有的聚类算法大多致力于发现任意形状、大小的簇,很难处理密度差别较大的数据集,而多密度聚类算法能有效解决这一问题。但是现有的多密度聚类算法区分稀疏单元和稠密单元的阈值需人工输入,且算法对参数非常敏感,存在一定局限性。此外,大多数的多密度聚类缺乏对网格内部数据的观测,导致聚类精度较低。针对网格算法需人工参与的问题,提出了一种自动计算稀疏单元阈值的方法。该方法将图像分割思想与网格聚类算法相结合,能够根据数据空间自动计算稀疏单元阈值。实验证明该方法能够有效剔除大面积稀疏网格。为了更好地应对多密度数据,提出一种新的多密度网格聚类算法。算法通过窗口检测和网格质心观测网格内部数据。实验证明该算法能够应对多密度数据,在发现任意形状、大小簇的同时,具有较好的时问效率,并能普遍应用于各种数据集。基于以上研究,设计并实现了分类信息平台基于类目的区域信息发现实例。根据业务目标选取数据维度,经过数据清洗、数据预处理过程,使数据质量满足聚类要求后,采用本文提出的多密度聚类算法完成区域信息的发现。最后调用百度地图开放接口进行数据展示和知识解释,通过对聚类结果的分析完成了面向区域信息的类目排序个性化,解决了分类信息平台的类目“危机”。
其他文献
随着网络技术的极大发展,网络管理的复杂性大幅增加。多厂商设备间的标准不一致性,多种接入技术,网络环境和拓扑的多变形,业务的多样化(文本、视频、音频)等,这些都为IT专家
随着铁路运输技术的不断发展,拥有安全、舒适、快捷等优点的高速铁路逐渐受到了旅客们的青睐。然而,高速铁路的快速发展也对民航市场造成了一定的冲击。为了提高人们的出行效
从能量控制来看,ZigBee网络节能机制的提出及相关的性能分析评价,如何降低网络能量消耗,提高能量效率,如何避免因节点能量过度消耗而导致的节点过早死亡、如何延长网络分割时
随着网络技术与压缩技术的发展,人们可以方便快捷地复制和传输各种数字视频。如何对大量的数字视频进行有效的版权保护成为一个迫切需要解决的问题,视频数字水印技术为这一问题
伴随着数据规模的急剧增长,集中式数据库在存储和计算等方面的局限性日趋显著,数据管理向分布式发展已成为趋势。为了对目前广泛应用的MySQL、PostGreSQL等开源数据库提供分
随着计算机技术、数字图像处理技术以及微电子技术的飞速发展,以FPGA为核心的图像处理系统已被广泛的应用在各个领域当中。本文以FPGA作为平台对视觉计算中的印刷体数字识别
随着高等教育的不断发展,高校数字化校园已经发展成为学院重要的组成部分,在现阶段高校数字化校园中,信息资源是最重要的资源,能否拥有及时、准确、全面的信息已经成为衡量一
Web服务作为新一代基础平台技术,已经得到了广泛的研究和应用。它一改传统的面向过程、面向对象和面向构件的软件开发方式,逐渐成为网络分布计算、互操作和协作领域新的里程
互联网时代,web中的文本数量和访问这些文档的人数一直在海量增加,对这些数量巨大的文本信息,人们要想找出一些相关主题的内容,仅靠人工的分类方法已经不能符合实际需要了。
随着信息技术的不断发展,信息推送技术成为了即时发布和获取信息的一种重要方式。它不同于传统的信息拉取方式,能够将信息主动实时推送给用户,满足人们及时获取有用信息的需