用户名
密码
(30天内有效)
注册
注册

首页 > 资料下载 >

基于蚂蜂窝网的北京市旅游资源评价词云图分析

我要收藏
2015-08-10

有人说我们处在大数据时代,有人说我们已进入“web3.0”时代,尽管说法不一但总之需要我们用数据来说话。每天海量、丰富的数据冲击着我们的神经系统和视觉感官,这一方面为科学研究提供了数据基础,另一方面挖掘这些数据背后隐藏的“秘密”也将是一件有趣的事情。当大数据与生活相结合,数字不再枯燥乏味而且你还会发现生活原来还可以这样过。

 

作为目前生活在北京而且喜欢旅游的我,对身边的旅游资源进行挖掘也许是个不错的选择。2013年北京市旅游总人数为2.52亿人次,那么这些人都是些什么样的人,他们都对哪些景点感兴趣?通过对这些数据的分析我们可以了解到游客的出游目的、景点的吸引力等内容,当然为旅游资源规划也是有一定参考价值的。

 

在对北京市旅游资源分析之前,我们首先通过百度指数以“北京旅游”为关键词对最近三个月的人群画像进行分析,结果如图1

 

1 以“北京旅游”为关键词的百度指数人群画像

资料来源:百度指数

 

我们可以看到几个有意思的结果:从年龄角度来看,关注北京旅游的人以中年人为主,这个年龄段的人首先金钱没有问题,其次多以陪伴家人而来;从性别角度来看,男性居然占到87%而女性仅占13%,这是一个令人惊讶的结果。那么这些人都去了哪些地方,哪些景点最吸引他们呢?我们通过制作旅游资源评价词云图的方式进行直观的分析。

 

【数据获取】

蚂蜂窝网是一家旅游社交网站,网友通过该网站自愿对旅游资源进行点评和打分,其评价具有一定代表性。通过编写“网络爬虫”从该网站上获取旅游景点的名称、点评数等信息作为研究所需数据。点评数越多说明该景点的关注度越高,也表明该景点的吸引力越强。

 

网络爬虫编写工具种类很多,这里采用的是MetaSeeker网站采集器。由MetaStudioDataScraper组成,以Firefox的插件形式发行。该采集器具有易操作的特点,适合新手入门使用。网站数据采集需要首先定义采集规则,而使用MetaStudio可以自动生成所要抓取网页所使用的规则,用户只需要对网页内容进行标注MetaStudio即可自动完成抓取。抓取网站数据首先要在Firefox中安装MetaStudioDataScraper插件并加载MetaStudio。操作如下:

 

1.命名抓取主题

2.定义商品数据抓取规则

·    创建整理箱

·    丰富整理箱的内容

·    指定将哪些数据抓取到整理箱中

3.FreeFormat映射

·    信息属性的FreeFormat映射

·    多实例的FreeFormat映射

4.创建线索

5.线索映射

6.保存信息结构

 

(具体操作步骤可参考“MetaSeeker v4.x速成手册——抓取京东商城商品价格” http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschemasenior.html

 

2 MetaStudio抓取部分截图

 

【研究方法】

研究采用“词云”的方式进行可视化展示。“词云”是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨(来自百度百科)。

 

词云图的制作方法很多,这里是基于R语言平台的“wordcloud”包进行分析,“wordcloud”函数包含了关键词、词频、字号设置、颜色设置、角度设置、词频量设置和关键词个数设置等内容,可根据需要自行调节。

 

函数代码如下:

·    install.packages('wordcloud') #安装程序包#

·    library(wordcloud) #加载程序包#

·    colors=c('red', 'brown','blue','green','yellow','purple') #制定字体颜色#

·    data=read.csv("d:/ly.csv") #读取数据#

·    wordcloud(data$words,data$freqdata,scale=c(3,0.1),min.freqdata=20,max.words=200,colors=colors,random.order=F,random.color=F,ordered.colors=F)#执行函数#

 

【研究结果】

通过对蚂蜂窝网站的旅游资源点评数挖掘并依据R语言平台制作出北京市旅游资源词云图(图2)。该词云图对词频小于20的关键词进行舍去处理,最终保留了106个关键词。

 

3 基于蚂蜂窝网的北京市旅游资源评价词云图

 

从词云图中我们可以直观的看出,故宫是人们最关注的景点,对游客尤其是外地游客最具有吸引力,从某种程度上来说,故宫成为了北京市的文化标签。其次,天安门广场、颐和园、八达岭长城、南锣鼓巷、天坛、鸟巢等景点也具有较强吸引力,它们与故宫共同构成了北京市旅游资源的主体,大多数游客来北京是冲着这些景点而来的。从关注资源量和资源种类上来看,北京市旅游资源非常丰富,包括了历史宫殿、遗迹、宗教建筑、博物馆、学校等人文景点和公园、山地等自然风光。


一个简单的分析,体会大数据带来的乐趣,数据将改变我们的城市,改变我们的生活。


本站声明

本文仅代表作者观点,不代表城市数据派立场;
本文系作者授权城市数据派发表,未经许可,不得转载;
本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。

点赞0
  • 联系微信客服
    xiaopaipai_udparty
  • 顶部