认证准备建议:Spark and Hadoop开发者培训
考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题
考试大纲
数据采集
这包括以下内容:
使用Sqoop将数据从MySQL数据库导入HDFS
使用Sqoop从HDFS导出数据到MySQL数据库
使用Sqoop更改导入期间数据的分隔符和文件格式
将实时和近乎实时的流数据导入HDFS
处理流数据,因为它被加载到群集上
使用Hadoop文件系统命令将数据加载到HDFS中转换,分批,储存
将存储在HDFS中的给定格式的一组数据值转换为新的数据值或新的数据格式,并将其写入HDFS。
从HDFS加载RDD数据,用于Spark应用程序
使用Spark将RDD的结果写回HDFS
以各种文件格式读取和写入文件
对数据执行标准提取,变换,加载(ETL)过程
数据分析
使用Spark SQL在应用程序中以编程方式与metastore进行交互。通过使用查询加载数据生成报告。
使用转移表作为Spark应用程序的输入源或输出接收器
了解在Spark中查询数据集的基本原理
使用Spark过滤数据
编写计算聚合统计信息的查询
使用Spark加入不同的数据集
生成排名或排序数据
配置
这是一个实操的考试,考生不仅要会编写代码,也应该熟悉整个开发环境
提供命令行方式,改变你的应用配置,如增加可用内存大小
中国区内需要报名考试或者培训的都可以问问我1438 118790
分享到:
相关推荐
Big Data Analytics with Spark and Hadoop 英文无水印pdf pdf使用FoxitReader和PDF-XChangeViewer测试可以打开
Big Data Analytics with Spark and Hadoop(Spark与Hadoop大数据分析)代码code
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Storm是一个分布式的、容错的实时计算系统。两者整合,优势互补。
Developer Training for Apache Spark and Hadoop
Developer Training for Apache Spark and Hadoop:Hands-On Exercises
Big Data Analytics with Spark and Hadoop 英文mobi 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请联系上传者或csdn删除
Big Data Analytics with Spark and Hadoop 英文epub 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请联系上传者或csdn删除
Python+Spark 2.0+Hadoop机器学习与大数据实战完整高清带书签的PDF压缩包
This book is based on the latest 2.0 version of Apache Spark and 2.7 version of Hadoop integrated with most commonly used tools. Learn all Spark stack components including latest topics such as ...
官方的学习资料,目标是通过此手册提供的知识点通过CCA Spark and Hadoop Developer (CCA175) 的考试。下载文档的朋友,我附带VM虚拟机,下载后请加群1141169,向我索要VM。
HADOOP SPARK 开发依赖包,对于第一个SPARK开发的例子,可以导入这个包去进行开发
Developer Training for Spark and HadoopLearn how to import data into your Apache
Spark 是加州大学伯克利分校 AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算...Spark 与 Hadoop Hadoop 已经成了大数据技术的事实标准,Hadoop MapReduce 也非常适合于对大规模数据集合进行批处理操
对于想学习 Spark 的人而言,如何构建 Spark 集群是其最大的难点之一, 为了解决大家构建 Spark 集群的一切困难,Spark 集群的构建分为了五个步骤,从 零起步,不需要任何前置知识,涵盖操作的每一个细节,构建完整...
Hadoop考试复习大纲.mmap
spark+hadoop+zookeeper 大数据平台搭建脚本,亲测通过,适用于大数据初学者在虚拟机玩
Spark安装包:spark-3.1.3-bin-without-hadoop.tgz
为了把spark2.4.X和hadoop2.7.3升级为spark3.1.1和hadoop3.2.2找了半天资源,最后还是自己手动编写了一个。已经在集群上测试可用
hadoop与spark分布式安装,内容详细,亲自搭建成功。助于新手
在ubuntu下spark+Hadoop环境搭建。详细的步骤,亲自实验。