如何对Spark进行调优

Spark调优比较复杂,但是大体可以分为三个方面来进行优化,具体如下:

  • 平台层面的调优:防止不必要的jar包分发,提高数据的本地性,选择高效的存储格式,如parquet。
  • 应用程序层面的调优:过滤操作符的优化,即降低过多的小任务,降低单条记录的资源开销,处理数据倾斜,复用RDD进行缓存,作业并行化执行等等。
  • JVM层面的调优:设置合适的资源量,设置合理的JVM,启用高效的序列化方法如kyro,增大off head内存等。
点击此处
隐藏目录