Uber永久定位系统实时数据分析过程实践！

发布时间：2018-08-26 09:16:59 所属栏目：教程来源：赵钰莹

导读：根据Gartner所言，到2020年，每个智慧城市将使用约13.9亿辆联网汽车，这些汽车配备物联网传感器和其他设备。城市中的车辆定位和行为模式分析将有助于优化流量，更好的规划决策和进行更智能的广告投放。例如，对GPS汽车数据分析可以允许城市基于实时交通信

或者使用Spark SQL：

%sql SELECT COUNT(cid), cid FROM uber GROUP BY cid ORDER BY COUNT(cid) DESC

使用Zeppelin notebook中的Angular和Google Maps脚本，我们可以在地图上显示集群中心标记和最新的5000个旅行的位置，如下可看出最受欢迎的位置，比如位于曼哈顿的0、3、9。

集群0最高搭乘次数出现在哪个小时?

df.filter($"_id" <= "1")  
.select(hour($"dt").alias("hour"), $"cid")  
.groupBy("hour","cid").agg(count("cid")  
.alias("count"))show

一天中的哪个小时和哪个集群的搭乘次数最多?

%sql SELECT hour(uber.dt), cid, count(cid) FROM uber GROUP BY hour(uber.dt), cid

按日期时间显示uber行程的集群计数

%sql select cid, dt, count(cid) as count from uber group by dt, cid order by dt, cid limit 100

总结

本文涉及的知识点有Spark结构化流应用程序中的Spark Machine Learning模型、Spark结构化流与MapR-ES使用Kafka API摄取消息、SparkStructured Streaming持久化保存到MapR-DB，以持续快速地进行SQL分析等。此外，上述讨论过的用例体系结构所有组件都可与MapR数据平台在同一集群上运行。

代码：

你可以从此处下载代码和数据以运行这些示例：https：//github.com/caroljmcdonald/mapr-spark-structuredstreaming-uber

机器学习notebook的Zeppelin查看器：https：//www.zepl.com/viewer/github/caroljmcdonald/mapr-spark-structuredstreaming-uber/blob/master/notebooks/SparkUberML.json

Spark结构化流notebook的Zeppelin查看器：https：//www.zepl.com/viewer/github/caroljmcdonald/mapr-spark-structuredstreaming-uber/blob/master/notebooks/SparkUberStructuredStreaming.json

SparkSQL notebook的Zenpelin查看器：https：//www.zepl.com/viewer/github/caroljmcdonald/mapr-spark-structuredstreaming-uber/blob/master/notebooks/SparkUberSQLMapR-DB.json

此代码包含在MapR 6.0.1沙箱上运行的说明，这是一个独立的VM以及教程和演示应用程序，可让用户快速使用MapR和Spark。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/6

首页

尾页

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您