浅谈上海地铁数据

推广:【《城市数据师人才培养计划》大牛公开课火热招生中】

910日成都班】综合课程1规划师大数据基础公开课 (理论基础到技术实操全程手把手教学)点击查看详情

827日成都班】综合课程2ArcGIS应用与分析:空间数据处理技巧、分析方法与可视化技术(解决数据分析任务中80%的问题就靠这个啦)点击查看详情

索取以上课程说明资料可加客服QQ 3070403320,或电话咨询 17727931461 李小姐


【派姐说说】

感谢作者授权【城市数据派UDParty.com】发布以下内容,版权归作者所有。如需转载,请联系作者

  



大家好,我是来自上海交通大学OMNILab实验室的张宏伦,现在是直博二年级,研究方向是数据分析和可视化。今天我给大家简单地分享一些和上海地铁数据有关的内容。

作为上海交通的重要组成部分,上海地铁日均客流量已经达到1000多万(下图是去年4月的统计):


  


对于上海地铁的印象,说到优点,毫无疑问,上海地铁覆盖面广、功能强大、方便快捷,说到缺点,当然就是人多、人很多、人非常之多,对于上班族而言,每天的早高峰简直就和上战场一样。暂时放下对地铁人多的抱怨,今天我们从数据的角度来了解一下上海地铁。


地铁数据可以分为静态和动态两大类,前者包括线路信息和站点信息等,数据量小而且很少改变,后者主要是实时的交通卡刷卡数据,每天会产生一千多万条刷卡记录,对应一个800M左右的CSV文件,其中每一条记录都包含交通卡ID、刷卡日期和时间、站点、类型、费用、是否优惠七个字段。




那么,地铁数据可以用来做什么呢?


地铁数据是质量非常高的数据,具有简单、格式化、量大等优点,通过对其中的一个或多个字段进行聚合统计,可以进行个人行为分析、时序分析、地铁站点分析、费用分析等内容。如果进一步结合其他数据源,就可以有更加丰富的应用场景。


  




去年的SODA大赛提供了4月份一整个月的刷卡数据,每天1500万条左右,共计大约4.6亿条。

我们从两个维度来整理这些地铁数据的作用:第一个维度是分析的对象,是个人还是站点;第二个维度是分析的目的,是为了公共价值还是商业价值。在这里我画了一个坐标系,并且在每个象限里放了一些地铁数据的应用场景,当然这个图画得还比较简单,大家可以大开自己的脑洞进行补充。



  



我们想避免外滩踩踏事故重演

接下来给大家分享一个案例,这是我去年参加SODA的成果(可视化链接戳这里):


  



案例场景是这样:演唱会、足球赛等大型活动一般多发于空闲时段,人群呈现出分批聚集、集中疏散的特征,活动信息可以提前预知,参与的人数少则数千多则上万。

我们当时通过大麦网等网站爬取活动信息,在未来的一个月内,上海将举办28场演唱会、55场音乐会和5场大型体育赛事,因此大型活动的发生十分频繁,其带来的安全隐患也是不容忽视的,最令人痛心的便是2014年跨年夜发生的外滩踩踏事件。



  


因此,我们希望担任这样的一种角色,为政府解决社会问题、为乘客提供巴士信息、为巴士公司提供客源,为他们提供定制的分析和服务,营造互惠互利、和谐共存的数据环境。

  


如何识别和疏散大型活动大规模人群

我们的系统框架是这样的,主要包括数据集扩充、数据预处理、数据分析和挖掘、数据可视化等步骤,从宏观、微观、介观三个尺度来观察和使用地铁数据。



  


首先来看一下地铁数据的概览,24小时客流量分布呈现出明显的早晚高峰,4月份地铁、公交和出租车的刷卡次数呈现出显著的周期性,有趣的是,周一到周四的数据都比较稳定,而周五往往会迎来一次小的高峰,有可能是因为临近周末,大家会选择出去玩,从而增加了总的刷卡次数。

  


每天活动的用户数量、刷卡次数和刷卡总额呈正相关,工作日早晚高峰显著并且流量高于周末,而天气因素对交通流量的影响不明显,毕竟不管刮风下雨,都是必须要去上班的。

从右边的图中我们可以发现周五客流量增加的原因,从中午12点开始,到下午4点左右,客流量比其他工作日略有增加,这大概就是那些临近周末、按捺不住要去吃喝玩乐的一群人吧



  


接下来我们从宏观、微观、介观三个尺度来观察地铁数据。

宏观尺度反应的是区域行为,可以看到各个地铁站的出度、入读和权重,地铁线路之间的OD,以及地铁站之间的OD。什么是OD呢?O代表起点,D代表终点,所以区域之间的OD反应出的是人群的迁移行为。

从人民广场出发的乘客都去哪了呢?

其他地铁站的名字越大、越高、越深,代表去往的客流越多,所以从人民广场出发的乘客,很多都去了莘庄——这是唯一一个位于外环以外、客流量如此之大的地铁站,因为它承载着所有五号线人通往市区的梦想。



  


微观尺度反应的是个体行为。

如果问你,一共去过了多少个地铁站,也许社交达人会说我玩遍了全上海,而宅男只能回答我就去过那么两三个地铁站。可以看到,大多乘客去过的地铁站总数少于10个,但是也有去过80多个站点的地铁达人。

每位乘客的总刷卡次数一般都是偶数,因为出门坐地铁是一件有来有回的事情。



  



我们用模序来抽象个体行为,用有向图表示用户轨迹,通过轨迹提取可以识别出个人行为中的停留点和模序。可以看到最常见的十大类模序,其中单程型和往返型最多,这符合我们的客观经验。

左下角的图是某用户4月份的行为轨迹,可以看出4是出现最频繁的模序,往返的两点分别对应公司和家,其他模序则对应出游、参加活动等外出行为。


  

介观尺度反应的是群体行为。介观基于宏观和微观,处理对象是具有共同点的人群,例如一同前往某地参加大型活动的人群,宏观上表现为某个地铁站客流显著增加,微观上表现为大量乘客模序异常并且终点相同。通过分析区域性人群聚集行为,可以识别出该区域是否即将发生大型活动。图中是中华艺术宫站在4月15、18和19日的客流量,其中15为工作日,18和19为周末,可以明显地看出4月18日的客流出现了异常,在晚上呈现出缓聚急散的特征,这是因为当晚在该站附近有一场演唱会。


  



所以大家就能更好地理解,什么是基于地铁数据的大型活动大规模人群的识别了。

我们提出了基于宏观和微观的人群识别算法,结果是这样的。矩形大小代表所识别出事件的数量,可以看到中华艺术宫的识别结果非常多,日历中的红色表示这一天客流异常,有可能是举办了大型活动。



 

我们基于虹口足球场4月11日晚上的数据进行了大规模人群疏散模型的研究,在这一天晚上虹口足球场举办了一场足球比赛。调配的巴士越多、载客量越大,乘客疏散得越快,但是有可能造成巴士浪费和资源损失,因此存在一个使得盈利最大和疏散最快的最优点,可以在我们的可视化网站上动态交互地体验这一过程。


  



公交3.0的梦想

最后,我们想做的,其实不仅仅是大规模人群的识别和疏散,而是希望从本质上解决交通拥堵问题。

之前在公交上看过一则公益广告,一辆公交车能满足60辆私家车车主的出行需求,然而只有坐公交的人才会看到这样的广告。我们提倡少开私家车、增加公共交通工具的使用,希望通过整合出行需求、汇聚相似人流,达到缓解道路拥堵、改善出行体验的目的,从生活理念上做到绿色出行。


  


因此,我们提出了公交3.0的概念。

在1.0时代,你需要查询各个公交的路线,然后自己规划如何乘坐;在2.0时代,你只需要提供OD,导航软件会替你完成规划;而在3.0时代,站点和规划都是动态的,公交路线会根据用户需求动态调整,从而更好地利用道路和车辆资源、缓解交通拥堵问题。

用户提交个人出行需求,云端整理需求和资源,并规划路线和调度巴士,用户只需选择所需的巴士绿色出行即可。




总结一下,人越来越多、车越来越多,地铁的运载能力逐渐饱和,未来的出行希望也许会落在公交上。

公交3.0,不仅是一个新时代,更是你我的一个梦想。





猜你喜欢

张宏伦

上海交通大学

上海交通大学电子系直博生,OMNILab实验室成员,研究方向为数据分析和可视化、自然语言处理、机器学习。个人网站:http://zhanghonglun.cn

© 2015 城市数据派 粤ICP备15036603号

copyright © 城市数据派UDParty.com-深圳数派互动传媒科技有限公司.ALL Rights Reserved