用户名
密码
(30天内有效)
注册
注册
首页 > 资料下载 >

基于在线交通数据的中国城市交通经济协调聚类分析丨城市数据派

我要收藏
2019-09-12

导读:

2019年7月9日,武汉大学城市设计学院硕士研究生张慧子在CUPUM 2019“城市”专题会场,宣讲“基于在线交通数据的中国城市交通经济协调聚类分析”的论文。她介绍了此次研究的背景、框架、数据来源、方法以及分析结果。 

以下是宣讲论文的主要内容。



1568281042268237.jpg

张慧子

硕士研究生

武汉大学城市设计学院

城乡规划学


结  论


  • 最容易到达的城市不仅包括发达的中心城市,而且还有连接边远省份和我国核心地区的区域中心。我国的铁路和航空运输都已形成了类似蜘蛛网的密集网络。


  • 高速铁路与省会城市的区域航线之间存在着互补关系,而省会城市之间主要是省级交通枢纽。中国核心地区的高速铁路网已经发展到一定程度,运输速度已超过某些航线,而边远省份的省会城市则依靠支线航空,以便于与同一省份的城市连接。

  • 在经济规模和管理水平较低的城市,存在着冗余的铁路连接。我们需要进一步探讨,是否应该加大力度鼓励他们开发铁路通道,或者减少在这些城市停留的车次,以确保更重要的城市之间的交通效率。

  • 某些地区需要更好的铁路和航空运输连接。特别是中国西南山区的旅游城市、汕头等人口聚集区、苏北等铁路连接薄弱的地区。



1、研究背景

区域交通的改善往往可以给城市经济带来更好的发展,但铁路、公路、机场、隧道和桥梁等基础设施的建设和投入都相当昂贵,交通资源的平均分配则可能导致不必要的冗余或资源的低效利用。因此,我们认为受到经济、人口等因素影响的区域间交通需求,与铁路、航空等运输便利的供给之间应该有一个平衡。


目前,已有一些与之相关的研究,但在线旅游数据和在线交通数据提供了一个全国性的、多种交通模式的信息,使我们能通过聚类分析方法揭示交通结构模式。


在本研究中,我们从火车和航空公司的在线预订平台获取相应的数据,以确保数据良好的覆盖率和有效性。再根据各城市之间的出行成本建立区域交通网络,然后将社会经济指标与网络指标结合,形成聚类数据集,再对聚类结果进行分析。

1568281261449219.jpg

研究背景


2、研究框架

此次的研究框架主要包括网络的形成、指标生成、聚类三部分。

网络的形成主要是指铁路和航线网络,基于国家铁路时刻表和国家航线的数据,通过数据验证、合并同一城市节点、计算城市间的交通成本等方式来生成。之后,对城市生成区域交通指标,包括铁路中心度、铁路协调中心性、航空中心度、航空协调中心性等。再结合相关的经济规模和交通流量,选择5-9的最佳类数,进行结果分析。


在此研究框架下,此次研究希望能获得良好的数据覆盖率和有效性、基于成本的网络、交通和社会经济的联盟、可理解的分类结果。

1568281389836095.jpg

研究框架


3、数据和方法

1)数据来源

此次研究,主要是基于在线订票系统获取与铁路、航班相关的信息,如线路起始点、出发和到达时间、线路类型等。


铁路相关信息选用的是2017年9月30日从12306.cn爬取的.txt格式数据,包括6万多行,每行代表一条预定列车的一站点。航线相关信息是2017年10月9日-10月15日一周内的网上预定信息,是.csv格式数据,包含超过5万多行,每行代表一个航班。


此外,研究中还引入了另外两个数据集来反映这些城市的社会经济特征:区域交通流量(年总量)来反映区域交通需求;国内生产总值来反映城市的经济发展状况。


1568281437922242.jpg


数据来源


2)多种交通工具的网络创建

首先,按属性连接火车站和城市。不同的数据加入到城市ID中,以获得城市间的最佳成本。将A到B的最短时间视为A到B之间的距离,时间越长,距离越长,反之亦然。由此得到中国内地铁路网的连通图,包括323个城市节点和30762条有向线路;同样,可获得航空连通图,包括199个城市节点和7860条定向线路。


1568281467829334.jpg

多种交通工具的网络创建


3)指标和分类

编程计算铁路和航空公司的网络指标:中心度用于计算直接连接数,累积紧密度用于计算协调度中心度。此外,我们还修改了协调中心性,使其包含成本,而不仅仅只是拓扑距离。相应的国内生产总值和游客流量与省内最高水平相比,代表了社会经济属性。在构建这些属性之后,可以开始寻找所有城市的最优K-均值聚类。


K-均值分类:任何一个城市都可作为一个6维的观测值,每个维度代表一个属性,为避免分类过程中的局部最优问题,将200个随机种子分为5、6、7、8和9级类型。计算数据点到各级中心的平均距离,以及各类中心之间的距离,并选择相应的最优分类结果。


1568281518659500.jpg

指标和分类


4、结果和分析

以下是此次研究的部分结果:

不同的指标有着完全不同的分布情况。就铁路指标而言,中心度较高的城市主要集中在几条干线上,而它们也可以是区域中心。航线的中心地位与铁路形成了较为完整的关系,山区城市的旅游吸引力也很高。其他指标,我们可以看到,出行者流量可以非常集中,而经济规模则以一种更加平衡的方式分布。


1)交通和社会经济指标

铁路相关指标与干线铁路的分布高度相关;北京作为中心城市,在中心度上具有明显的优势;某些发达地区仍存在空白。

1568625775543977.jpg

铁路中心度及协调中心度指标分布

 

航线的相关指标显示,我国中部地区凹陷;与铁路相关指标有互补;旅游城市相当显著。

1568625808461915.jpg

航线中心度及协调中心度指标分布

 

社会经济指标中,省会城市普遍存在,但不乏例外;发达和欠发达地区相对平等;交通比GDP更趋于集中。

1568625833632793.jpg

社会经济指标


2)聚类结果

可以将所有城市分为9个类型,A至I类,其中A至D、G类城市在全国都有分布;E级多在国家高速铁路干线上,F类是E类沿着铁路网的延伸,H类城市是向不同方向集聚的城市,东北和西部的大部分地区的这类城市较多。一个城市的等级与是否为省会似乎有着密切的关系,这与中国城市之间的资源配置有关。此外,不同阶层在网络指标和社会经济指标方面也存在很大差异。

1568625865541360.jpg

九类城市的分布

1568625888210384.jpg

九类城市的各项指标


A类城市包括北京、广州、上海和深圳,它们是典型的全国性龙头城市,拥有巨大的经济规模、国际影响力和广泛的人口和资本吸引力。从指标中可以看出,这些城市的铁路和航空条件,具有显著优越性。

1568625915817253.jpg

A类城市分布及其指标特征


B类城市包括杭州、武汉、郑州、济南、合肥等城市,它们是中国中部和东部,人口众多、腹地广阔、陆路交通便利的区域经济和交通中心城市。它们是连接密集干线的重要省会城市,可以快速到达全国大部分城市。

1568625953799849.jpg

B类城市分布及其指标特征


C类城市包括成都、福州、哈尔滨、呼和浩特、昆明等15个西部省会城市和2个兰州至昆明线以东的重要沿海城市。它们的行政管理水平相对较高,但大多位于地理位置较差的地区,因此它们更多地依赖航空公司,而航空公司是唯一一个拥有高收入的城市类型。

1568625980277210.jpg

C类城市分布及其指标特征

 

D类城市包括拉萨、苏州、太原、西宁、乌鲁木齐,它们都是边远省份或欠发达省份的省会城市,它们在本省处于支配地位,要么位于交通网络的边缘,要么与交通网络连接不足,航线的连通性较差,铁路连接性更好。

1568626004740754.jpg

D类城市分布及其指标特征

 

E类城市基本上位于我国中部,与高速铁路网高度一致,铁路运输非常方便,但由于需求量低,航空业较差,其经济规模和出行量都很小。

1568626026400739.jpg

E类城市分布及其指标特征


F类城市包括6个沿海港口城市和7个内陆城市,它们大多位于铁路网络的边缘,因此具有较低的铁路协调中心度。而另一方面,由于它们巨大的经济规模,导致航空业需求大。

1568626055777883.jpg

F类城市分布及其指标特征


G类城市大多位于中国西部或东部沿海城市,少数位于靠近中国西部的中部省份,它们的经济规模相对较小,交通量较小,而且这些城市的高速铁路交通就算有,也很低。

1568626079377595.jpg

G类城市分布及其指标特征


H类城市主要是中小城市,位于沪深、兰新等铁路线的终点或边缘,其指标与E类城市指标相似,但一般数值较低。

1568626105253335.jpg

H类城市分布及其指标特征


最后,I类城市包括95个经济规模和区域交通需求均较小的城市,他们大多在西北部、西南或东北,少数分布在其他山区。

1568626131184311.jpg

I类城市分布及其指标特征



本站声明

本文仅代表作者观点,不代表城市数据派立场;
本文系作者授权城市数据派发表,未经许可,不得转载;
本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。

点赞0
  • 联系微信客服
    xiaopaipai_udparty
  • 顶部