论文部分内容阅读
随着大众点评网中商户数据量的激增,商户纪录中的商区数据会出现一系列的失效问题。文本提出的商区边界识别子系统,通过商户的坐标数据,对商区的边界进行了计算,为这些失效问题的解决提供了一个明确的商区边界标准。在大众点评中,商户和商区信息一方面是提供给使用大众点评应用的客户来通过商区等信息进行搜索查询商户,也就是面向大众的功能;另一方面,这是面向大众点评内部的,内部的IT支持人员需要根据这些数据的来按照商区统计分析,运营销售的人员需要根据这些商户的位置来对同时处在该商区的点评用户进行活动的推广、商户的推荐等等操作。这些商户商区的数据十分重要,但是当这些数据失效时,则缺少一个能够对数据的有效性进行判断的标准。由此便有了本文所讨论的商区边界识别子系统。商区边界识别子系统主要是根据处于同一个商区的商户数据,进行分析和计算,实现了计算商区边界、绘制出商区边界、判断一个商户是否处于这个商区中和商区去噪等功能。在本子系统中,商区的边界绘制使用了python的pyIab工具包;而在商区边界计算中,本文总结了现有的平面点集凸包算法,包括基本的凸包算法和之后其它的凸包算法,经过对这些算法的对比、分析其优劣点、综合考虑商户在一个商区的分布情况和商区其它的特点,最终选择基本凸包算法中的扫瞄法来计算商区的边界。本子系统的模块根据功能实现的方便性来确定使用的语言,这个子系统使用了两种语言,其中的绘制模块使用python,其它的模块使用java。特别的,网络服务模块分别使用python的fIask包提供python实现模块的服务,使用jetty或者tomcat来提供jaVa实现模块的服务。本文所讨论的商区边界识别子系统提供一个商区的实用边界标准。让如大众点评这类网络销售类型的公司对自己掌握商户的统计更加方便;也让其对客户的推送更具有针对性;同时也让后续的销售、决策等等的数据来源更准确。最后,由于这种计算点集边界的功能具有普适性,可以应用在很多不同的领域。