IT视频教程资源网
标题:
Spark进阶 大数据离线与实时项目实战
[打印本页]
作者:
admin
时间:
2022-5-18 00:18
标题:
Spark进阶 大数据离线与实时项目实战
Spark进阶干货:从使用到调优,整合多个大数据生态圈中的框架
企业应用中Spark不可能单兵作战,掌握Spark与多个框架的结合运用才能真正应对实际需求
Spark
HBase
Hadoop
Redis
Kafka
Alluxio
资深Spark工程师亲授
内容结合实际工作经验
三分基础,七分实战
带你在项目中学习
实现功能并调优重构
达到企业生产标准
理解并掌握课程内容
可达Spark中级工程师水平
实战Spark“离线”和“实时”两大应用场景
课程整体为一个大项目,以IT资源网用户行为日志展现“离线场景”;以订单数据的统计分析展现“实时场景”
Spark整合HBase打造大数据离线项目实战
项目概述:
使用Spark对IT资源网用户行为日志进行ETL处理,处理
结果落地在HBase,并使用Spark对接HBase存储的日
志数据进行统计分析
实现功能:
各地区访问量统计分析
客户端访问分布情况统计分析
解决的问题:
离线通用处理架构
快整合Github已有的资源到项目中
Spark整合HBase数据使用DataFrame进行读写操作
通过shell脚本动态传递参数进行Spark作业的提交
Spark统计结果以正确的姿势写入到MySQL
性能调优:
Spark中Cache在项目中的使用
禁用HBase的WAL机制
使用Spark直接生成HFile文件高效的数据落地到HBase
Spark整合Kafka&Redis打造大数据实时项目实战
项目概述:
使用Spark Streaming和Redis的整合完成IT资源网订单
数据的实时统计分析
实现功能:
实时统计每天的总订单数(此处为模拟数据)
实时统计每天的总订单金额(此处为模拟数据)
解决的问题:
实时通用处理架构
Kafka整合Spark Streaming的使用
根据不同的业务进行Redis数据类型的选择
性能调优:
项目参数统一配置管理
如何将多个业务统计分析统计进行抽象提取处理、达到
共享数据的目的,节省计算资源的开销
offset管理的思路
实战项目架构:逻辑分层清晰,业务流程完整
若你基础薄弱,为你推荐:Spark入门到进阶学习路径
讲师已在慕课出品了三门Spark课程,学习路径完整,你可根据自身水平选择
《SparkSQL极速入门 整合
Kudu实现广告业务数据分析》
《Spark Streaming实时流处理项目实战》
本课程
IT资源网精品课程 为你提供超值服务
技术版本维护
讲师长期维护项目,不会让项目由于
技术版本更新而无法运行。
Git代码仓库
提供高性能远端Git仓库,方便开发
者随时随地参与项目。
课程源代码
免费提供课程源码,课程源码保持长
期更新维护。
学习社群
课程专属学习交流群,与优秀的人共
同进步:互相帮助,共同分享。
专题讨论
定期组织技术话题讨论,疑难问题/
热点技术/职业规划/高效学习等热点
观点等你参与。
问答社区
遇到困难随时提问,讲师亲自
答疑解惑。
课后练习
定制每章课后练习,技能知识
牢牢掌握。
教辅材料
辅助视频内容,扩展知识面,让你更
好,更深的理解知识。
适合人群
想转型或者从事大数据行业的小伙伴
技术储备要求
Spark进阶课程,不是从零基础开始讲解,需要有一定基础
熟悉Scala、Java SE基本语法
熟悉Hadoop基本使用、Linux基本命令
了解Spark SQL和Streaming的基本使用
欢迎光临 IT视频教程资源网 (https://zhilexue.tech/)
Powered by Discuz! X3.2