用户名
密码
(30天内有效)
注册
注册

首页 > 资料下载 >

【手机大数据】如何成为城市研究与规划的基础数据?

我要收藏
2015-08-09

【派姐说说】

以下内容来自【2015城市规划·长安论坛—新技术支撑下的城乡规划编制方法变革】,感谢论坛主办方授权【城市数据派UDParty.com】发行。

小派特别整理演讲全景记录分享给大家,让你如临其境!如需转载请联系udparty@qq.com


这也是迄今为止,派姐听过最全面最坦诚的对手机大数据城市研究与规划实践的演讲,堪称“手机大数据百科”啊!欢迎加入小派的实名制QQ群:343933087,和城市大数据爱好者、研究者、实践者探索交流,一起用数据发现、解决城市问题!



《手机数据成为城市规划基础数据的可行性和可能性》

报告人:钮心毅,同济大学建筑与城市规划学院,副教授



我的报告分两个部分

第一部分是介绍技术的,在新的数据条件下用什么技术支撑规划

第二部分介绍非技术问题,我觉得比技术问题更重要。


先跟各位简单介绍什么是手机数据,所谓的手机数据包括三类:


第一类通话详单数据,就是每个用户在运营商那打了多少电话、发了多少短信,这个数据就是通话详单数据,这是个人隐私,运营商不会提供给任何方,所以我们研究中绝对不是使用这部分数据。


第二类是话务量数据,就是通话强度数据,是运营商测试网络承受能力的数据,也就是在一个基站上在一瞬间有多少人发了短信或电话的业务量,这个数据有点像用电负荷数据。这个数据不涉及任何隐私,是运营商比较愿意提供的,长期保留的。但是这个数据看不到个人行为,所以只能在一定程度上反映城市活动,因为通话多短信多的地方大多数是人群密集区,而且不同时段会有不同的特征。所以手机数据最早的城市规划研究就是用这个话务量数据,目前国外研究用的最多的也是这类数据。


第三类数据是信令数据,是手机用户在网络活动中留下的信号数据,只要手机开机,产生任何行为或活动,都会与基站产生信号交换,这个信号交换会被记录下来,平均一个人一天能留下几十个信号,是大致连续的。信令数据也有一点个人隐私问题,是每个用户有一个匿名的编号,记录这个编号在什么时候产生过什么样的信令。一般运营商不会保留信令数据,因为信令数据对他们而言只是一个副产品,过两天就会删掉。但是信令数据对规划研究作用比较大,近期我们都在探索信令数据如何用做规划应用。我们现在使用过话务量数据和信令数据做分析。


先讲讲信令数据特点:

首先是大样本,因为不管哪家运营商,用户基数都可算是大样本,而且基站是空间上全覆盖的,有条件提供整个城市范围内居民的活动信息。

另外还有两个重要特点,第一是非自愿性。很多大数据能分成两类:自愿数据和非自愿数据,自愿数据是用户主动提供的,有目的性提供的,但是有个缺陷是特定人群的特定信息,好处是有行为目的性。非自愿数据是被动发生的。像手机信令数据,最长隔1-2个小时,基站会发信令确认这个手机是否正常,是一种被动参与的调查,所以真实反映了居民活动的时空变化。


第二个是连续性和动态性,每个人每天从早到晚全部手机活动信令都将记录下来,是个基本连续动态记录。所以通过这个数据可以研究人的行为和空间环境之间相互作用的特征。


信令数据是典型的大数据,一个城市的几十万用户一天产生的信令数据量就可能有十几个G据说中国联通全网信令数据一天就接近20T。因为每天都会产生大量的信令数据,所以运营商没有办法一直保存。


手机数据能应用于规划研究中,前提是认为居民行为反应了城市活动的时空特征,居民行为特征和城市空间结构、建成环境是相互作用的。我们通过手机信令来研究居民时空特征,来间接反映建成环境和城市空间结构。


我第一部分内容将讲一讲技术上的可行性在哪些方面有应用的潜力,我将通过几个研究案例来介绍。


第一个案例是我们去年用手机信令数据做城市功能分区的识别和评估。这是个假题的研究。这是上海中心城区的土地使用现状图和规划图,大概664平方公里,是上海核心区域。通过手机信令数据来识别不同时段的城市活动,来看看规划提出的功能分区在多大程度上实现。我们把上海移动的手机信令数据做了分时段汇总,然后根据基站做了密度分布图,在这基础上再来看不同时间段密度分布特征如何。



选择了四个时间段,一个是工作日上午十点,第二个是休息日下午三点,还有工作日和休息日的夜间。


研究了不同类型的活动,认为工作日上午十点大众都在上班,所以信令都在就业点附近,这时哪个地方信令密度高,就代表了哪个地方的就业岗位密集程度高。休息日下午三点应该大众都在休息,所以这时手机信令密集的应该是商业区或公园等公共场所,而对于夜间手机信令密度高的地方应该是居民在家的情况。


这些我们都是用了两周的平均值来测算,可以从图中看出浦西的密度要比浦东大很多,但是不同时段不同区域有不同特征。


将工作日白天与晚上做了比值,将休息日的下午与休息日的晚上做了比值,我们认为不同比值特征可以反映土地使用特征。看这个表,例如,我们认为工作日夜间密度非常高的区域,同时在工作日白天和夜间差异不太大的区域,认为可能是就业和居住混合区。同样工作日夜间手机信令很少,工作日白天和夜间差异非常大,这可能就是纯就业区


这些比值特征最终得到这样一张图,大片区域是典型的功能区,浦东有大片黄色低密度居住区域,就是白天人很少,夜间人也不多。同样在浦东我们发现有大片红色区域就是单纯的就业高密度区。


这样我们发现浦西和浦东差异非常明显。在浦西我们发现有大片白色区域,白色区不是没有人,从统计学上来说是功能差异不显著区域,我们无法归类是哪一种功能区域。从图上发现上海浦东、浦西差异非常大,浦东城市活动功能分区非常明确,大致按照规划功能分区来实现,但是浦西有大量功能混合区域。


此案例是用手机信令数据来判断职住空间关系。前面案例是识别一个时间点上有多少手机用户,用手机用户密度的多少代表居民活动活跃度的强弱,根据不同时间段人的活跃程度来判断城市功能的实现程度。现在来换个思路,我们试图用手机信令数据来识别人的居住地和就业地,来看看城市职住空间体系是如何的,做了上海和南昌两个案例。


上海这个案例我们放在了郊区新城这一块研究。上海在十一五开始就提出在郊区建设新城,每个区县基本建一个新城。我们希望通过手机信令数据来识别郊区新城发展状况如何,提出几个问题

1 郊区居民的职住关系如何

2 多少居民是在郊区新城内部居住和就业

3 多少居民职住关系是分离在中心城和郊区之间

4 从就业视角来看,新城的发展状况到底如何


通过2011年的手机信令数据识别出了840万用户的OD数据,这里面用到了重复率算法。我们认为在两周的十个工作日时间里,超过6天白天在同一个基站周边出现了,就认为这个手机用户在那里工作,而夜间如果同一个基站出现超过了60%以上天数,那么就是在这里居住。同时我们剔除了白天晚上在同一个基站出现的人群,我们认为这部分人群可能是退休人群,所以最终得到了大概500多万人的OD数据。这样在上海市域内采集到的样本,占到上海总就业人数的50%-60%,还是一个非常大的抽样。


这两张图就是我们识别出日间工作地和夜间居住地的分布图,总体上可以看出郊区新城总体居住较多,就业岗位比较少


这张图是按照人口普查的常住人口密度,进行9个郊区新城的比较。这也是一般判断郊区新城发展情况的方法。但是根据手机信令数据判断出来的工作岗位密度图来看,我们进行了排序,发现和常住居住密度的新城排序是有差异的,离上海中心城区最近的两个新城,他们根据六普数据来计算常住人口密度非常接近,几乎没有差异,但是手机信令数据来比较这两个新城就业岗位差距接近两倍。


换句话说一个新城就业密度要远远高于另一个新城。这两个视角,一个从居住视角,一个从就业视角,结果差异很大。规划里原来没有办法测算就业岗位密度,但是通过手机信令数据就可以测算出就业岗位密度。


接下来还是根据手机信令数据来测算在新城就业的人口从哪里来,分为三类,第一类来自本区县,第二来自中心城,第三来自其他地区。我们发现上海郊区新城的就业者大部分都是来自本区县,也就是就地城镇化比较高。同样反向测算新城居住者主要去哪里就业,我们发现住在新城的人去中心城区工作的人也不多,也是就地在新城工作的人比较多。


最后这是测算出来的通勤距离,全市范围内,虽然个别的人通勤距离有近100公里,但是大部分人的通勤距离都在5公里范围内。我们发现了嘉定新城的平均通勤距离只有3公里多,也就是郊区新城的通勤距离要低于中心城通勤距离。我们还发现宝山新城平均通勤距离有6公里多,但是宝山新城用地类型也很平衡,工业居住都有,比例很均匀。所以给我们一个启示不能根据用地平衡来测算职住平衡。规划里应对职住平衡的手段太少了,光一张用地平衡表不代表什么。


这个案例是在南昌的研究,是同济规划院正在做的南昌都市区规划的实际项目。也用了手机信令数据测算了都市区的空间结构和交通联系。研究两个层面,一个1000多平方公里的研究范围,一个是有300多平方公里核心范围。


我们用了联通今年4月份的数据。回答几个问题:1 四个组团和中心城的关系是如何的?如果撤县建区,是先撤新建县还是先撤南昌县比较好?换句话说,因为这两个县城都离中心城非常近,哪个跟中心城关系更密切一些?我们用同样的方法测算出职住关系,我们这次就算出了30多万个用户OD数据。这次试了新的方法,把OD基站没有变化用户和从不发短信的用户都排除掉。我们认为从不发短信的多半是退休老年人士,最终剩下的是真正在职就业的,再看他们的通勤范围有多大。


这里有几张图我们很快看过去,这是中心城区职住情况,这是在中心城区就业者的夜间居住地分布这是在中心城区居住者的就业地分布,大部分都在中心城区内。这是南昌县城的就业者他们居住在哪里,这是反过来在南昌县城居住者他们的就业地点分布。把南昌县和新建县比较,发现这两个县城还有很大差异,比如密度差异,新建县密度要高于南昌县。还要注意一下分布范围,南昌县城通勤范围在江北分布比较少,因为县城在南边;但是新建县城就算在北边,他的通勤范围在南边分布也很广。


所以我们可以发现新建县城与中心城的联系要比南昌县城更紧密一点。再看看向塘镇,相对独立性就强很多,与中心城江北基本没有联系,但是同样再看看昌北机场开发区,主要是依赖中心城,不管是正向还是反向的联系很紧密。所以最终得出几个结论:1新建县城要和中心城联系更紧密,2昌北机场开发区还不算独立一个组团,3向塘镇是一个独立性比较强的组团。



第二个问题我们想比较下新城、旧城两个中心的差异测算到过旧城中心八一广场的人一天活动范围有多大,去过新城中心红谷滩的人一天之内活动范围又是多大,来判断哪个中心辐射范围更强。最终算出结果,差异非常大,也就是去过八一广场的人,一天之内活动范围虽然不大,但是密度很高。去过红谷滩的人,一天内的活动范围非常大。也就是去过江北的人,他可能还要去江南,但是去过江南的人就不一定要去江北了。所以我们认为江南老城中心的辐射大于江北新城中心,老城中心辐射强度要远远大于新城中心辐射范围


还有一个计算结果,测算了一天之内跨江出行的比例。选了两个工作日和两个休息日,发现有近20%的居民,一天内总要发生一次跨江出行,所以这就是赣江上的四座大桥非常拥堵的原因,江南江北联系程度非常高。



上面讲的案例我想说明在技术上对手机信令数据研究是可行的。但是有几个前提首先只能适合大尺度研究,因为依靠基站定位很粗,基站范围是500-1000米,所以研究尺度比较大,如果你研究一个详规层面、城市设计层面就不行。但是如果研究全市层面,城市整个空间层面、或者区域层面,就非常适合。


手机信令会给我们新的视角,我们可以看到居民的就业点、居住点、以及就业居住点的联系情况,甚至可以看到居民的休闲活动规律。所以大尺度、对应人口分布、对应居民活动范围是三个适合手机信令数据应用的前提缺陷有两个:第一空间定位分辨率较粗,第二个无行为目的。因为我们不知道他去干什么,只能根据常理判断。比如白天位置当作就业点,晚上位置作为居住点,但如果那个人上夜班,就完全反了。


下面我再讲点不乐观的。

首先是数据从哪里来。很多同行问数据来源怎么办?数据来源方面有很多困惑,主要是运营商很困惑。首先困惑是个人隐私问题,运营商能提供转换加密过的数据。我们从这数据中看不到个人具体信息,算是匿名数据,但还是有个人隐私问题在。虽然不知道是谁,但是每个匿名ID号是对应一个手机号的,还是有唯一性,是可以看出这个人的一天活动。


数据伦理的角度讲,做个体的研究还是有一定问题的,所以我本人不做个体行为研究,只做总体活动情况研究,但是也有人做个体行为计算的研究。数据如何完全脱敏,才能算完全保护个人隐私?运营商也不清楚,我们也不知道。这也是数据很难获取的原因,就是因为隐私问题。


第二个问题是谁的数据。就是用户在通过基站留下手机信令数据,到底是谁的产权。如果是运营商的,运营商是可以出售数据的,但是如果是用户个人的,运营商是没权利这么做。现在法律角度来说,能否界定信令数据到底是用户所有还是运营商所有?这也是运营商非常忌讳的,据说已有运营商就吃过这样的官司,为什么你把我的数据卖给第三方去做分析了。


第三个问题是数据用在哪些场合比较合适,信令数据能不能用于商业用途,比如他将信令数据拿出来卖,到底是所有人都能买,还是只有政府、公益用途的研

本站声明

本文仅代表作者观点,不代表城市数据派立场;
本文系作者授权城市数据派发表,未经许可,不得转载;
本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。

点赞0

全站浏览排行

TOP ARTICLES
  • 联系微信客服
    xiaopaipai_udparty
  • 顶部