用户名
密码
(30天内有效)
注册
注册
首页 > 案例资料 >

北京54坐标的x、y轴的整数部分坐标分别是几位?

我要收藏
2016-07-11

推广:【《城市数据师人才培养计划》大牛公开课火热招生中】

910日成都班】综合课程1规划师大数据基础公开课 (理论基础到技术实操全程手把手教学)点击可查看详情

827日成都班】综合课程2ArcGIS应用与分析:空间数据处理技巧、分析方法与可视化技术(解决数据分析任务中80%的问题就靠这个啦)点击可查看详情

索取以上课程说明资料可加客服QQ 3070403320,或电话咨询 17727931461 李小姐



以下内容来自《第十届规划信息化实务论坛》,很荣幸【城市数据派】受邀成为官方合作媒体

演讲者:段冰若,北京清华同衡规划设计研究院技术创新中心



今天我想讲的是用机器学习这种方法作为一个切入点,来引导大家换一种角度去思考城市问题


  


主要内容有三部分:

第一:总结归纳目前城市转型中的规划研究新挑战,这些挑战正好引出了机器学习在规划研究中的机遇

第二:介绍什么是机器学习,有哪些特征,如何与城市规划研究相结合

第三:机器学习方法的新机会,讲讲清华同衡技术创新中心在这方面的应用和尝试,也算是为大家开一个脑洞。


  


首先看一下在城市转型中遇到的规划和挑战。

第一个就是存量规划的转变,和传统的增量规划相比,提出了更加精细的要求,例如对用地的刻画、对时空的描述等都有更高的要求。


那么第二点就是在中央城市工作会议上,李克强总理进一步强调需要对城镇发展规律和方向做一个探寻和摸索,从单一的城市发展到城市群的发展,同时也提出了更高的要求。


  

当我们知道这种传统的统计类数据,它因为更新的频率等等一些原因,对于规律探索存在诸多局限性的。所以我们经常会通过互联网数据,或者开源大数据去寻找方法。虽然带来了很多机会,但是如何去使用这种海量数据,降低信息和技术门槛,在庞大的数据中提取出有用的信息,进一步辅助规划?


  


所以总结来看:

第一个对于存量规划来说,需要对城市用地特征与人群时空行为的深入描述与刻画。

第二对于城市发展规律来说,需要使用超越传统数据,来进行新兴多源数据对城市发展规律进行挖掘与探索。

第三面对多源数据的复杂性,我们应该怎么利用和分析。



  

所以从这三个问题中都看到了机器学习这种新兴方法在城市规划研究中的机遇和挑战。对于深入刻画来说,使用机器学习的模型,可以在数据的庞大当中发现一些隐含的相似形。机器学习本身就是对现有数据规律与特征的总结。最后对于多源数据的使用上,机器学习模型也有它自己的便捷性,能够将多源数据较好的融入到模型中。

  

简要回顾一下机器学习的基本信息。随着“人机大战”的持续讨论,人工智能似乎也成为了企业争相抢夺的未来入口。其中值得一提的是,人工智能是一种研究领域,涉及众多研究方向,包括智能搜索、机器学习。机器学习就是人工智能的子课题,是人工智能的核心问题和实现的基本手段。


  

那么从这个统计报告来看,截止到2016年的3月,全球人工智能领域获得投资的公司中,按照平均融资额度排名的五大业务依次是机器学习、智能机器人,所以它是排名第一的。


  


所以说到底什么是机器学习呢?那么这其实就是一种设计并且使用计算机可以自动学习和改进的算法,从数据中分析获得规律,并且运用规律对未知进行预测和探索的方法。


它是对于未知数据进行的探索。一般意义上,机器学习分为两类,一类是监督学习,一类是非监督学习。从左边的图上可以看出,监督学习的意义就是传统历史数据的经验归纳,通过把这些经验归纳到机器学习的模型当中,可以对现在的数据进行一个比较好的预测。监督学习可以用来预测地价、选址后新建的影响评估、控制变量的人流量预测、基于历史信息的分类画像去描述地块和人群。


对于非监督学习来说,核心就是分类。根据数据本身的自身特征,将它的算法和相似特征的数据分类。这就给城市问题分析提供一个不同的角度。可以把城市问题解构为若干个预测问题和分类问题,重新结构解答传统城市研究无法解答的问题。



  

对于非监督学习,我们可以做城市内部的地块和人群,城市之间的特征分类、人群属性特征分类画像。


  

那么第三步我想介绍一下,过去一年同衡技术创新中心的尝试。第一个案例是对北京养老卡用户特征分析和评估。它有两个数据,一个是养老卡原始数据,包括居住健康等信息;第二部分是消费数据,包括它每个消费的时间、地点、金额,消费的商户类型。


  

基于这两种信息的特点,建立了两个模型:第一个模型是用于养老卡基本身份信息的分类;第二个是对于消费特性的分类。


  

提取的字段包括它的姓名、性别、民族、每月的养老卡补贴金额类型等等,那么对于非监督学习分类,通过这12个字段把持卡人分为7组。


  

第二类是中低收入的持卡人。那么我们进行一个落地,去看看不同街道中不同的养老卡持卡人有什么不同的特点。我们看到有的大量的居民是属于中等收入的。还有很多黄色的是属于中高收入中年男性。



这些分类信息结合空间特点,在下一步可以结合用户信息,对于养老服务设施在某个街区的安排可以比较好的对接和帮助。


第三个就是对养老卡用户消费特征分类,养老卡消费类型共分为:医疗医药、家政服务、日间照料等。我们可以看到不同的街道中,它不同的分布情况。那么对比之后告诉我们,在下一步可以介入这种详细用户的信息,对养老服务设施在某一个街区的安排和安置进行更好的对接,满足他们的具体需求。



  


第二个案例是数据精准描述地块。通过出租车数据刻画北京与上海。在这个研究中尝试使用了上海和北京一周的出租车GPS的数据,对两个城市的地块进行了非监督分类,找出出租车活动相似的地块,进行横向的比对。


将北京和上海分为了7类,在不同分类的结果上,地块的OD的这个持续曲线有很大的不同。可能有一种是持续地波动地那种,有一种是早上出动比较多。



  

那么通过这种出租车特点,可以对城市的地块进行一个基于出租车活动特征的描述。同时也对北京和上海不同种类的用地特征进行一个对比,这个对比不只局限于某一个城市内部,可以做多个城市的对比。我对北京比较熟悉,我知道一类地块的分布,但是我不知道上海的,就可以用北京的去推测上海的一类地块分布情况。


  


第三个案例是微博数据用户的描述。这个案例中,研究的动机是想搞清楚对于深圳的微博用户和香港的微博用户,他们都在各自对面的城市进行什么活动。微博归属地是我们自己填的,所以它不一定准,在实际观察数据的时候,也发现了很多深圳的用户它可以把归属地填为香港,这个就会对分类造成困扰。所以第一步先通过用户的签到数量和时间,建立一个非监督模型,通过这种方式预测出用户真实的归属地。

  

在真实的归属地出来之后,我们就去分析深圳用户到底在香港做了什么,香港用户在深圳做了什么。对于深圳用户来说,他们在香港最常去的一些地点,像海港城、苹果商店、高级宾馆等等,都是一些高档的消费场所。然后下面这张图就是香港的用户在深圳干了什么,基本上都去了洗浴中心。


  

所以我们希望能通过这些用户特征把代购给寻找出来,建立监督学习的模型挑选出微博上有代表性的代购,然后通过他们的特征去建立监督学习模型,这样可以对整个香港和深圳两地的用户是不是代购做一个预测。结果是高达18.94%的微博活动特征呈现出代购的趋势和特点。接下来进一步把他们的签到进行一个可视化,图中的蓝点都是购物的中心,蓝点越大代表签到数越多。对比来看,正常的微博用户它可能签到的地点种类比代购更多一点,而且购物地点签到并没有代购那么多。


  

那么说完了如何精准描述地块和人群后,我们知道如何用机器学习来尝试。第一个案例是前两天刚刚完成的联通竞赛,给我们很多启发也给了我们很多鼓励。通过联通用户的一些基本信息,使用的流量还有消费的类型,去预测这个人会不会更换手机。一度排到了整个竞赛的第三名,告诉我们规划师其实也是可以玩数据的。所以如果在数据上将这种用户的使用手机特征更换为换机的属性的话,那么这个商场我会不会去,这个公共服务我会不会使用,那么这种分析方法就非常使用。



那么第二个寻找规律的案例就是北京博物馆运营评价。很多博物馆希望通过微博来进行营销来提高知名度,所以我们就分析了北京官方博物馆的运营情况、签到情况。对这个微博进行评估,同时也给它的再运营提供一些建议。


第一步我们把博物馆的微博帐号分成两个维度:第一个维度是根据它的帐号活跃度、粉丝数、评论的平率周期等来将它的帐号详细情况进行区分;第二个是根据它的签到特征去做一个欢迎程度的区分。



  



第二部分对签用户的特征进行分类。从签到的持续的频率上,可以看到这五个用户上在微博的活动频率是非常相似的。但是北京用户和非北京用户是非常不同的。


北京用户是春天的时候去博物馆的。而外地是夏天和十一的期间去参观博物馆。所以接下来就做了一个相关性的体验。最后我们总结出了五点规律和建议,提供给北京的各个博物馆。


第一点就是它的运营水平差异还是比较大。很多公立它有专门的人员去利用微博,私立却没有。第二点就是我们发现可以深入地研究他们的发送内容,他们对于目标听众这样的讲解,我们会有更多的用户去选择签到。还有就是对于微博用户签到的行为影响最大的是它的归属地。也就是下一步它更多地考虑到不同地方的传播也好,宣传也好。



  

第五个就是短时间内微博影响力非常大,如果到了下一周,或者说看下一个月,可能这条微博完全没有影响力了。所以微博是非常短效的营销工具。


  


那么规律探寻之后,我们现在来尝试回答一下第三部分,就是如何在分析中尝试对多源数据进行整合相对于传统的统计指标体系打分的方法来说,机器学习在一定的程度上可以排除主观带来的负面的影响,同时对不同种类的数据源进行统计分析,将分类变量和经验变量放在同一个模型中,最大程度上消除主观因素对模型评价的影响。


第一个案例是基于刚才提到的联通手机数据的竞赛来说的,基于手机信令的多源数据用户画像。首先提取了联通手机的信令,对这个用户的诚信点进行识别。通过地块的信息将用户进行分类。提取的分析就是房价、租金、ODPOI等等,大概分为8类,从这个分类特征上可以看出这个分类结果虽然是描述用户的,但是它更多是在强调用户活动的特点。



  


比如说某一类用户它喜欢价格偏低的地方,或者说租金中等的地方等等。那么这样一来,就给下一步分析创造了很多的可能性,一来可以分析某一种类型的用户。比如可以分析居住条件或者说长期在低等居住区活动的用户,同时也可以分析对于某一地块的人群它的活动有什么特点。

  

再一个可以增加一个监督模型,加入类似于POI、房价,还有用户的行为轨迹,互联网的记录这些信息建立一个控制变量的模型,改变变量对地块做更为深入的预测。还有就是空气质量的分析,当它比较好的时候,流动值是多少,在它不好的时候,人口流动量又多少。


这个是多源数据辅助存量规划的案例,在个研究中,我们使用的某中互联网真实LBS数据和百度POI数据,将数据匹配至地块和500米网格,对地块、网格和原始数据点进行非监督分类,达到用地功能识别的效果。这也是因为我们获得人口分析数据,我们是从APP上面的使用频率上面来获得的,识别北京地块用地功能的效果。


从分析人口的属性的话它其实对居住区不会有特别精准的识别。虽然晚上都在家,但是可能手机并没有连网。所以第二个尺度就是我们加入了POI的约束。对原始数据进行了分类,也对规划之后的数据进行了分类。进一步地突出或者凸显它时间活动上。同时也将POI进行了分类,可以对全市的地块进行比较好的识别。


  

同时在识别完这个之后,对建筑外轮廓进行识别。


所以这个总体来看,虽然说机器学习方法带来了很多可能性,而且对解决刚才的三个问题有比较好的尝试,但是还需要有更多的思考。比如说深入刻画用地的有效性与准确性,分类的准确性,还有探寻规律的成果输出。寻找机器学习模型黑箱中预测出的规律是什么。然后第三个就是对于多源数据的筛选与取舍。我们在下一步会进一步防止信息过载,加强对分析和筛选,及其学习训练出来更加给力。谢谢大家!


感谢主办方授权发布PPT,文字由城市数据派根据现场录音整理加工而成,未经演讲者本人审阅。


本站声明

本文仅代表作者观点,不代表城市数据派立场;
本文系作者授权城市数据派发表,未经许可,不得转载;
本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。

点赞0