本文由中国城市规划设计研究院信息中心与清华大学数据科学研究院校企合作“大数据实践课”项目成果整理而成。作者:刘千惠,沈一琛,张恩嘉,周 培,哈日桂,夏雨妍信息中心实践导师:于沛洋,金 银,贾鹏飞1、POI核密度分析哪里不“科学”了?城市POI数据(points of interest, 兴趣点)涵盖了城市各类设施的位置与属性信息,是城市研究的基础性空间大数据。其分布的密度、集聚趋势等特征也是城市中心识别,城市功能区评估的重要技术手段。其中,POI数据的分布密度是对空间现象的一种场表达。大到国家、地区甚至全球体系,小到城市、街道、社区,在实际的地理空间中,人类的社会经济活动在不同的空间尺度下,往往表现为若干节点的集聚,并在不同的空间统计单元中形成强度等级各异的集聚中心。因而,利用海量的城市POI数据的空间点位信息以及其相邻点间的空间关系,模拟城市地理空间的聚集强度是城市中心识别的核心思路。事实上,这种距离越近的关联越紧密的密度分析法是地理学第一定律思想的表达。其中Rosenblatt和Parzen提出的非参数估计法,即核密度估计法应用最为广泛。该方法不需要相关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本出发研究数据分布特征的方法。因此,在统计学理论和应用领域均受到高度重视,也是相关研究中最常用的空间分析方法。然而,受限于POI数据自身的属性特征。维度单一的POI数据往往只能反映城市各类设施点的地理空间分布,与实际的社会经济活动强度并不直接相关。为克服数据固有的缺陷,相关城市中心的识别多采用属性加权的方法进行弥补。例如,在城市商业中心识别的有关研究中,研究者多采用商业设施的营业面积或营业额,作为密度分布估计的属性加权;在就业中心的研究中则采用就业岗位数量进行加权,但相关加权属性往往难以直接获取,大量的实地调研访谈工作也稀释了海量POI数据中固有的空间规律价值。加权属性中诸多的不确定性使得相关研究往往停留在对城市的个案观察,难以在城市中心识别研究中直接推广。另一方面,研究者将核密度分析更多地视为一种即用性的工具,对算法本身有欠考虑。具体而言,核密度估计法基本形式是: 其中,M是数据点个数,h是带宽(即GIS核密度分析中的搜索半径),K是核函数。可以看出,在算法变量中带宽选择是唯一需要额外控制的重要参数。一般而言,地理模型作为真实世界的模拟,不同研究尺度会选择不同的带宽。例如,在研究城市运行的宏观规律时,较大带宽会忽略细节变化更易凸显城市的整体规律,反之较小带宽则局部极值较多,更易观察城市的局部特征。 不同尺度的POI选择来源:Bertaud A. The spatial Organization of Cities: Deliberate Outcome of Unforeseen Consequence?IURD Working Paper Series[Z]. IURD Working Paper Series, 2004对于相关问题的考量,研究者往往会选择多个带宽进行比较。然而,综述已有研究,选择合适的带宽(尺度)经验干预较大。合适的带宽参数选择往往会异化成如何选择最有利研究结论的带宽,表现出极强的主观性,进一步弱化了POI核密度识别城市中心的科学性。表1 POI识别城市中心相关研究核密度分析带宽选取情况2、如何让POI核密度分析更加“科学”?• 研究方法 技术路线框架图方法优化由四大部分组成:(1)POI数据分类,以城市居民生活中不同类型活动空间集聚特征为着眼点,对地图服务商提供的POI功能类别进行重分类。(2)手机信令加权,弥补POI难以体现社会经济活动强度的不足,通过对手机信令数据的挖掘,对活动强度高的POI点进行权重提升。(3)核密度分析优化,在厘清概念与原理的基础上,挖掘POI本身数据集特点对核函数、带宽确定进行方法论优化,减少主观判断因素,避免次级中心的遗漏,这是本文的重点。(4)数据校验,由于仅依靠经验无法准确得到较为客观的城市中心,主观行政意愿的城市中心往往与现实的发展程度不一致,以较为客观的夜间灯光数据进行校验的量化。在研究过程中,校验结果反馈于手机信令加权、核密度分析优化,进行迭代。在实证研究部分,本研究通过对西安市域城市中心的实际情况进行分析,与过往城市总体规划、实际发展情况进行比对,再次验证的同时廓清西安城市中心的整体情况。• 研究数据1.西安POI数据,数据主要属性是其地理坐标与相应的功能代码,共295438条。2.联通基站手机信令数据,数据基本空间单元为覆盖西安市域范围的250m网格,数据主要属性为分小时的手机信令识别的人口数量。3.夜间灯光数据。数据主要属性为城市灯光亮度值。3、数据处理与方法优化•POI数据分类:多重分类,特征简化西安市域POI名称词云图原始数据集对POI已有初步分类,对照POI名称分词的无监督词云聚类结果,人工对已标注的数据进行整合,将标签压缩为三类,即商业、就业、生活(三者可以互相重叠)。分类结果为商业217591条,就业277197条,生活91400条。具体而言,标签着眼于各类活动在空间中集聚状态。即能提供就业岗位的就业类的POI取向就业类型;能提供与空间息息相关的消费活动的POI取向商业类型(1.去除线下商业活动频次过低或主要商业功能不发生在该点的POI类型,如保险公司、家政公司,2.去除存在消费行为但是商业活动并非本质属性的POI类型,如历史名胜、文物古迹);与日常生活活动相关的POI为生活类型,包括相关的商业(如美容、按摩店等)、公共服务设施配套(中小学)等。 POI分类表(局部)• 手机信令加权:属性加权,见物见人手机信令是运营商记录用户在移动网络中位置信息的数据,其自带的时空特征常被用于职住地的识别。不同文献对于职住地区的识别的手机信令数据筛选时段不同,但整体上通过白天的长时段识别作为工作地识别依据,晚上的长时段识别作为居住地识别依据。通过不同时段内人所在网格的数量统计来判断居住地及工作地。相关文献的职住时间识别时段表综合已有的研究,本文将居住地识别时间定为22:00到次日6:00,工作地识别时间定为9:00-17:00,娱乐地识别时间为11:00-19:00。具体规则为:(1)计算每个网格工作日在22:00-6:00时间段内的平均人流量PoP1;(2)计算每个网格工作日在9:00-17:00时间段内的平均人流量PoP2;(3)计算每个网格工作日在11:00-19:00时间段内的平均人流量PoP3;(4)计算每个网格周末在11:00-19:00时间段内的平均人流量PoP4。各类用地判别:居住地判别:PoP1>PoP2, 工作地判别:PoP1