APP拍照定价的分析(4)

竞赛题目本身提供了包括会员位置,历史任务位置,历史任务标价,历史任务是否完成等数据。通过网络上公开的信息采集到了地区本身的经济发展状况相


竞赛题目本身提供了包括会员位置,历史任务位置,历史任务标价,历史任务是否完成等数据。通过网络上公开的信息采集到了地区本身的经济发展状况相关数据。

历史任务包括历史任务具体的经纬度坐标,任务的价格,完成状况,过聚类我们发现四个聚类中心分别位于广州,深圳,佛山和东莞。总共大约有八百多条数据。

会员信息包括会员自身的经纬度坐标,会员积分。通过网络统计公布的统计结果,广州、深圳、东莞和佛山的人均GDP分别为153118、183645、91778和127964。

1.2数据清洗

在数据挖掘的过程中,大数量级的原始数据中存在着缺失和异常的数据,这将会严重的影响数据挖掘建模的结果,或许也会造成挖掘结果出现偏差。所以,数据在使用前的处理就显得非常重要了。 数据的清理完成后,数据整合,转换,规约等一系列将可以同时进行。 这个过程就是我们说的数据预处理。

由于搜集,乱码和输入失误,数据中经常存在一些异常值和缺失值,需要对其做出清洗或替换。 常用的处理方法有:删除,替换和补差。

通过分析数据的离散程度,我发现会员位置存在很多明显的异常值,与绝大部分数据相比,位置偏差过多,在这里我选择剔除这些异常的数据点。

图1.1 异常值

1.3数据规约

高维数据有可能包含许多不相关的干扰信息,由于直接给出的数据不能直观的表达数据的差异程度,我将数据整合成以下几种:

1.3.1任务附件会员密度

计算任务附近会员的数量,并且除以附近地区的面积,在这里我将地图上经纬度1度近似等于110km,选取范围内所有的点,并得出相对密度。

1.3.2任务附近会员平均距离

指的是任务点附近区域内,每个会员距离任务的平均距离。在这里范围选取110km内的会员数据,得到区域内所有会员数据后,计算出每个任务附件会员的平均密度。

1.3.3任务距离聚类中心点距离

我任务会员分布与地理位置有一定的联系,聚类中心附近会员更多,距离聚类中心越远表示任务处于相对偏远地区,在定价上需要酌情考虑提升价格。

二.需求分析

2.1任务未完成的原因

从现有数据来看,任务未完成的原因大概率与任务坐标,会员坐标,以及定价三个因素密切相关。因此,我将问题分成两种类型:任务与会员的关系,任务与任务之间的关系。包括任务附近会员的相对密度,任务位置的离散程度。最直观的是研究任务成功率与这些因素的关系。

2.2 完整的定价模型

    通过聚类,分出不同的地区后,罗列出不同地区的任务成功率,挑选出最优的定价地区,并以此作为相对的定价标准,对已有的数据做回归分析,得到定价的回归方程,再通过与实际的地区经济发展水平结合,为不同地区定制出相对合理的定价。