论文部分内容阅读
摘 要:本文是对2017年全国大学生数学建模竞赛B题“拍照赚钱”的任务定价问题一的研究。首先基于任务分布热力图及模糊分类原理,初步推断出原定价方案中的影响因素为交通成本和任务的复杂程度;然后,运用k-means聚类法将所有任务点分为4类,代表4座城市,将各聚类簇中心作为各个城市的新的修正中心;进一步地,通过构造模糊分类规则中的各价位判别半径,利用待判断任务点与修正中心的距离,确定其价格范围,结果与原价格的相关系数在0.7577-0.8387之间、平均绝对误差在0.6772元左右;最后,通过各区域平均价格、完成率和任务数量,再结合价位分布图和任务完成情况分布图,确定出任务未完成的原因为高价位任务之间过于离散以及地区经济发展水平高导致低价任务吸引力不够。
关键词:k-means聚类 模糊分类 定价方案 蒙特卡洛法
一、引言
众包模式作为一个新兴产业在中国具有非常广阔的发展空间,越来越多的商业任务会用众包的模式来解决。目前很多企业对兼职员工有非常大的需求,但是用兼职员工本身就是应该比较麻烦的过程,但是,如果有一个兼职劳务的众包平台,能够提供这类服务,企业能够直接把这类有需要的项目发布到平台,将会大大节省企业的成本和时间。而“拍照赚钱”就是移动互联网下生成的一种自助式众包服务模式。用户通过下载相关APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。相比于传统的市场调查方式大大节省了调查成本,而且具有有效性和真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价就显得极其重要。如果定价不合理,有的任务就会无人问津或人人疯抢,而导致任务市场的不平衡。
二、模型的建立与求解
附件一所给任务基本分布在广州、深圳、东莞和佛山四市范围内。考虑到任务价格在65-85范围内分布较为离散的特点,将价格分为如表2-1四个区间,每个区间的任务数量如表2-1所示。
结合各个城市核心商业区分布情况,可以得出如下初步推断:
(1)数量最多且价格最低廉的任务点(图中绿色十字),普遍分布在距离市中心非常近的区域内,这时的任务价格可能与便利的交通和主要城区低廉的交通成本有密切关系;
(2)处于价格范围倒数第二梯队的任务点(图中红色十字),普遍分布在距离市中心有一定距离,交通便利性方面开始不如市中心,即交通成本开始增加,带来任务价格的增加;
(3)处于价格范围倒数第三梯队的任务点(图中黄色十字),普遍分布在远离市中心的郊区内,此时交通成本较市中心时显著增加,带来任务价格的显著增加;
(4)处于价格范围第一位的任务点(图中蓝色十字),分布较为杂乱,无明显规律可循,且其任务价格较高,可能与该任务的复杂程度有关,受任务发布方主观因素影响较大,可视为随机因素。
利用k-means聚类法将所有任务点分为4类对其经纬度进行聚类,由于k-means法的随机性,这里选取其中一次聚类结果,如图2-2所示,图中黑色×为聚类簇重心,令其为所代表城市的修正中心:
按照经纬度与标准地图对比,可判断出上图中聚类1为深圳,聚类2为东莞,聚类3为广州,聚类4为佛山。
1.定义分类规则。由于任务点价位随距离市中心远近有一定变化规律,但并没有明确的各价位地理位置上的范围,以及各市管辖任务点的分界线,故将4个价位分为4个模糊集合,代表65-70价位,代表70-75价位,代表75价位,代表80-85价位,并构造分步判别算法如下:
:考虑到任务价格中最高价位的分布较为随机,无明显规律可循,这里首先以附件一中样本最高價位(80-85)的任务在总样本中所占比例0.048作为初始判别的概率,即对任何样本,第一步无差别地使其以0.048的几率落入80-85价位对应的模糊子集中;
:对未随机落入最高价位的任务点,记作,先分别计算其与四个城市的修正中心距离,将其划入距离数值最小的城市,即
(2-1)
:根据任务点已确定的与所属城市修正中心的距离,观察其在城市的各价位层次判别半径中的落入情况,以任务点与落入的半径区间两侧圆周的距离为判别依据,构造隶属度,例如,若任务点落入代表的价位圆周与代表的价位圆周中,有
(2-2)
其中为任务点对的隶属度,为任务点对的隶属度,将其归入隶属度较大的相应模糊子集中,判别完成;若任务点落入区域只有单侧判别圆周,则归为该单侧圆周所属模糊子集。
:对已经归为对应模糊子集的任务点,等可能取得对应价格区间中的随机数,作为该任务点定价。
2.模糊分类任务定价模型的检验。根据上述模型中求出的相关数据及分类规则,利用MATLAB对附件一中所有样本连续8次重复分类,将新的价格与原价格进行对比,计算出相关系数,以及平均绝对误差,在其中设置的随机性参数的影响下每次结果略有不同,在下表中呈现出来。
由此可得,该模型可以解释大多数的定价,且误差可以接受。
3.未完成任务的原因分析。根据附件一中数据,利用MATLAB依次绘制出深圳、东莞、广州以及佛山各自区域内任务价格范围分布图,以及任务完成与未完成的平面分布图(右侧图),以深圳为例。
根据上列各图的观察对比,可得到下列初步推断:
(1)未完成任务中,任务价格在最低两个范围内的占大多数;
(2)不同城市区域对低价任务的敏感程度不同,其中深圳最为敏感,反映在深圳大部地区低价任务几乎都未完成;
(3)所有地区内高价任务(80-85范围)完成率非常高,任务价格的提高对会员完成任务的积极性有显著影响。
3.1基于实际情况和图像直观因素的初步分析。由2.中的初步推论,结合前文k-means聚类的相关结果,将附件一中所有任务划入各自所属的城市中分别分析,以深圳市为例。 (1)深圳市。對深圳市内所包含的所有任务数据进行分析,提取出下表中所示信息:
高价位时(80-85),对图(2-2)中对应任务点进行观察可发现这些任务本身数量就较少,且分布较为分散,落入低价任务点聚集的区域以及位于远郊地区的孤立高价任务点均未完成,而落入中高价(75价位)任务分布较稠密地区的高价任务点全部完成,这可能与部分倾向于高价任务的用户的心理因素有关,即孤立偏远的高价任务在时间、交通成本等方面处于不利地位;中价位时(75),完成率最高,从图(2-2)中也可看出这些任务分布较为密集,其中未完成的部分也均处于离群偏远的地区。低价位时(65-75),完成率低下,通过与其他城市的横向对比观察,可发现,在深圳地区,低价的任务普遍调动不起会员的积极性,只有在深圳南山区附近,低价任务完成率“反常”地升高,通过查找深圳市统计局相关数据,获悉南山区是深圳人均GDP最高的区,这也是影响该地低价任务完成率的重要因素。
(2)东莞市。据分析,与深圳市有着较大差别,东莞市内的所有价位的任务完成率都很高,所有价位的任务几乎都以聚集或连续的条带状分布,而为数不多的未完成任务也均为离群的任务点,这与深圳市中高价位任务的完成情况相似。
(3)广州市和佛山市。广州市和佛山市市毗邻处任务完成率较高,陷入低价任务密集分布区域的高价任务完成率低,且与前两市情况相似,处于连续条带分布状态的任务完成率较高,这可能与用户想在短时间低成本下尽可能完成更多的心理倾向有关。
3.2基于初步分析的具体因素量化分析。
通过3.1中对每个城市不同情况的分析,得出下列影响完成率的因素:
(1)高价位任务离散程度。在前面的分析中,我们考虑到高价位任务分布过于分散的情况下,单个的离群任务点几乎不可能被完成,以深圳市为例,利用k-means法对深圳区域的80-85价位样本点进行聚类,在分为四类的情况下如图所示。
除左上角三个任务点形成一簇外,其余各点由于其过分分散,各自独立为一簇,这些独立出来的点即为未完成的三个任务点,同样的,对广州和佛山的高价位任务点进行相同处理。得到结果与前文中任务完成与否分布基本吻合,说明高价位的任务点的分散程度对高价任务完成情况有较大影响。
(2)地区经济发展水平的影响。从3.1中深圳市的情况可以看出,在一个经济水平高度发达的地区,在其他地区试用的最低定价策略在此地区效用就大大降低,深圳市作为广东省人均GDP最高(2016年为171304.78元)的城市,在低价位定价上应适当上浮,因此地方发展水平是影响各价位任务定价的重要因素之一。
三、结语
本文通过运用聚类分析及模糊数学的相关知识,对“拍照赚钱”任务定价问题进行了分析和研究。借鉴了打车软件的现有资源,研究出影响任务完成的因素为距离的远近及价格的高低。为众包行业的普遍定价有了明确的方向。
参考文献:
[1]吴金洪,陈强,鞠秀芳.用户参与大数据众包活动的意愿和影响因素探究[J].情报资料工作,2014(30):74-75.
[2]周浩亮.模糊数学基本理论及其应用[J].建井技术,1994(5):70-71.
[3]庞建刚.众包社区创新的运营机制设计[D].中国科学技术大学,2014,44.
[4]司守奎,孙兆亮.数学建模算法与应用[M].北京:国防工业出版社,2016.9-15.
[5]杨志国,杨志凯,刘东军,刘伟杰,张召.多任务环境下众包平台定价方法:中国,CN201610509294.X.[P].2016-12-07.
关键词:k-means聚类 模糊分类 定价方案 蒙特卡洛法
一、引言
众包模式作为一个新兴产业在中国具有非常广阔的发展空间,越来越多的商业任务会用众包的模式来解决。目前很多企业对兼职员工有非常大的需求,但是用兼职员工本身就是应该比较麻烦的过程,但是,如果有一个兼职劳务的众包平台,能够提供这类服务,企业能够直接把这类有需要的项目发布到平台,将会大大节省企业的成本和时间。而“拍照赚钱”就是移动互联网下生成的一种自助式众包服务模式。用户通过下载相关APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。相比于传统的市场调查方式大大节省了调查成本,而且具有有效性和真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价就显得极其重要。如果定价不合理,有的任务就会无人问津或人人疯抢,而导致任务市场的不平衡。
二、模型的建立与求解
附件一所给任务基本分布在广州、深圳、东莞和佛山四市范围内。考虑到任务价格在65-85范围内分布较为离散的特点,将价格分为如表2-1四个区间,每个区间的任务数量如表2-1所示。
结合各个城市核心商业区分布情况,可以得出如下初步推断:
(1)数量最多且价格最低廉的任务点(图中绿色十字),普遍分布在距离市中心非常近的区域内,这时的任务价格可能与便利的交通和主要城区低廉的交通成本有密切关系;
(2)处于价格范围倒数第二梯队的任务点(图中红色十字),普遍分布在距离市中心有一定距离,交通便利性方面开始不如市中心,即交通成本开始增加,带来任务价格的增加;
(3)处于价格范围倒数第三梯队的任务点(图中黄色十字),普遍分布在远离市中心的郊区内,此时交通成本较市中心时显著增加,带来任务价格的显著增加;
(4)处于价格范围第一位的任务点(图中蓝色十字),分布较为杂乱,无明显规律可循,且其任务价格较高,可能与该任务的复杂程度有关,受任务发布方主观因素影响较大,可视为随机因素。
利用k-means聚类法将所有任务点分为4类对其经纬度进行聚类,由于k-means法的随机性,这里选取其中一次聚类结果,如图2-2所示,图中黑色×为聚类簇重心,令其为所代表城市的修正中心:
按照经纬度与标准地图对比,可判断出上图中聚类1为深圳,聚类2为东莞,聚类3为广州,聚类4为佛山。
1.定义分类规则。由于任务点价位随距离市中心远近有一定变化规律,但并没有明确的各价位地理位置上的范围,以及各市管辖任务点的分界线,故将4个价位分为4个模糊集合,代表65-70价位,代表70-75价位,代表75价位,代表80-85价位,并构造分步判别算法如下:
:考虑到任务价格中最高价位的分布较为随机,无明显规律可循,这里首先以附件一中样本最高價位(80-85)的任务在总样本中所占比例0.048作为初始判别的概率,即对任何样本,第一步无差别地使其以0.048的几率落入80-85价位对应的模糊子集中;
:对未随机落入最高价位的任务点,记作,先分别计算其与四个城市的修正中心距离,将其划入距离数值最小的城市,即
(2-1)
:根据任务点已确定的与所属城市修正中心的距离,观察其在城市的各价位层次判别半径中的落入情况,以任务点与落入的半径区间两侧圆周的距离为判别依据,构造隶属度,例如,若任务点落入代表的价位圆周与代表的价位圆周中,有
(2-2)
其中为任务点对的隶属度,为任务点对的隶属度,将其归入隶属度较大的相应模糊子集中,判别完成;若任务点落入区域只有单侧判别圆周,则归为该单侧圆周所属模糊子集。
:对已经归为对应模糊子集的任务点,等可能取得对应价格区间中的随机数,作为该任务点定价。
2.模糊分类任务定价模型的检验。根据上述模型中求出的相关数据及分类规则,利用MATLAB对附件一中所有样本连续8次重复分类,将新的价格与原价格进行对比,计算出相关系数,以及平均绝对误差,在其中设置的随机性参数的影响下每次结果略有不同,在下表中呈现出来。
由此可得,该模型可以解释大多数的定价,且误差可以接受。
3.未完成任务的原因分析。根据附件一中数据,利用MATLAB依次绘制出深圳、东莞、广州以及佛山各自区域内任务价格范围分布图,以及任务完成与未完成的平面分布图(右侧图),以深圳为例。
根据上列各图的观察对比,可得到下列初步推断:
(1)未完成任务中,任务价格在最低两个范围内的占大多数;
(2)不同城市区域对低价任务的敏感程度不同,其中深圳最为敏感,反映在深圳大部地区低价任务几乎都未完成;
(3)所有地区内高价任务(80-85范围)完成率非常高,任务价格的提高对会员完成任务的积极性有显著影响。
3.1基于实际情况和图像直观因素的初步分析。由2.中的初步推论,结合前文k-means聚类的相关结果,将附件一中所有任务划入各自所属的城市中分别分析,以深圳市为例。 (1)深圳市。對深圳市内所包含的所有任务数据进行分析,提取出下表中所示信息:
高价位时(80-85),对图(2-2)中对应任务点进行观察可发现这些任务本身数量就较少,且分布较为分散,落入低价任务点聚集的区域以及位于远郊地区的孤立高价任务点均未完成,而落入中高价(75价位)任务分布较稠密地区的高价任务点全部完成,这可能与部分倾向于高价任务的用户的心理因素有关,即孤立偏远的高价任务在时间、交通成本等方面处于不利地位;中价位时(75),完成率最高,从图(2-2)中也可看出这些任务分布较为密集,其中未完成的部分也均处于离群偏远的地区。低价位时(65-75),完成率低下,通过与其他城市的横向对比观察,可发现,在深圳地区,低价的任务普遍调动不起会员的积极性,只有在深圳南山区附近,低价任务完成率“反常”地升高,通过查找深圳市统计局相关数据,获悉南山区是深圳人均GDP最高的区,这也是影响该地低价任务完成率的重要因素。
(2)东莞市。据分析,与深圳市有着较大差别,东莞市内的所有价位的任务完成率都很高,所有价位的任务几乎都以聚集或连续的条带状分布,而为数不多的未完成任务也均为离群的任务点,这与深圳市中高价位任务的完成情况相似。
(3)广州市和佛山市。广州市和佛山市市毗邻处任务完成率较高,陷入低价任务密集分布区域的高价任务完成率低,且与前两市情况相似,处于连续条带分布状态的任务完成率较高,这可能与用户想在短时间低成本下尽可能完成更多的心理倾向有关。
3.2基于初步分析的具体因素量化分析。
通过3.1中对每个城市不同情况的分析,得出下列影响完成率的因素:
(1)高价位任务离散程度。在前面的分析中,我们考虑到高价位任务分布过于分散的情况下,单个的离群任务点几乎不可能被完成,以深圳市为例,利用k-means法对深圳区域的80-85价位样本点进行聚类,在分为四类的情况下如图所示。
除左上角三个任务点形成一簇外,其余各点由于其过分分散,各自独立为一簇,这些独立出来的点即为未完成的三个任务点,同样的,对广州和佛山的高价位任务点进行相同处理。得到结果与前文中任务完成与否分布基本吻合,说明高价位的任务点的分散程度对高价任务完成情况有较大影响。
(2)地区经济发展水平的影响。从3.1中深圳市的情况可以看出,在一个经济水平高度发达的地区,在其他地区试用的最低定价策略在此地区效用就大大降低,深圳市作为广东省人均GDP最高(2016年为171304.78元)的城市,在低价位定价上应适当上浮,因此地方发展水平是影响各价位任务定价的重要因素之一。
三、结语
本文通过运用聚类分析及模糊数学的相关知识,对“拍照赚钱”任务定价问题进行了分析和研究。借鉴了打车软件的现有资源,研究出影响任务完成的因素为距离的远近及价格的高低。为众包行业的普遍定价有了明确的方向。
参考文献:
[1]吴金洪,陈强,鞠秀芳.用户参与大数据众包活动的意愿和影响因素探究[J].情报资料工作,2014(30):74-75.
[2]周浩亮.模糊数学基本理论及其应用[J].建井技术,1994(5):70-71.
[3]庞建刚.众包社区创新的运营机制设计[D].中国科学技术大学,2014,44.
[4]司守奎,孙兆亮.数学建模算法与应用[M].北京:国防工业出版社,2016.9-15.
[5]杨志国,杨志凯,刘东军,刘伟杰,张召.多任务环境下众包平台定价方法:中国,CN201610509294.X.[P].2016-12-07.