首页
学习线路图
学习教程
面试宝典
首页
学习线路图
学习教程
面试宝典
学科分类
Java
前端
Python
大数据
PHP
C/C++
学科分类
Java
前端
Python
大数据
PHP
C/C++
学科分类
Java工程师
前端工程师
Python工程师
大数据工程师
PHP工程师
C/C++工程师
学科分类
学科分类
Java工程师
前端工程师
Python工程师
大数据工程师
PHP工程师
C/C++工程师
目录
Hadoop
HDFS
MapReduce
Zookeeper
Hive
Flume
Kafka
HBase
Spark
如何对Spark进行调优
Spark处理数据比Hive快的原因
Spark中Worker的主要职责
Spark中的Driver功能
Spark任务提交后的执行流程
Spark如何防止内存溢出
Spark工作机制
Spark技术栈中的组件
Spark比Mapreduce快的原因
spark的shuffle阶段和mr的shuffle阶段
Spark任务中的宽窄依赖及每个Spark任务的stages划分
Spark master HA主从切换是否会影响集群已有作业的运行
Spark 使用Zookeeper实现HA,哪些资源保存到Zookeeper
Spark Core
Spark SQL
SparkStreaming
Flink
如何对Spark进行调优
Spark调优比较复杂,但是大体可以分为三个方面来进行优化,具体如下:
平台层面的调优:防止不必要的jar包分发,提高数据的本地性,选择高效的存储格式,如parquet。
应用程序层面的调优:过滤操作符的优化,即降低过多的小任务,降低单条记录的资源开销,处理数据倾斜,复用RDD进行缓存,作业并行化执行等等。
JVM层面的调优:设置合适的资源量,设置合理的JVM,启用高效的序列化方法如kyro,增大off head内存等。
点击此处
隐藏目录