Spark集群运行架构 - 大数据学习教程_大数据培训_ 大数据技术与应用

Spark是基于内存计算的大数据并行计算框架，比MapReduce计算框架具有更高的实时性，同时具有高效容错性和可伸缩性，在学习Spark操作之前，首先介绍Spark运行架构，如图1所示。

图1 Spark运行架构

在图1中，Spark应用在集群上运行时，包括了多个独立的进程，这些进程之间通过驱动程序（Driver Program）中的SparkContext对象进行协调，SparkContext对象能够与多种集群资源管理器（Cluster Manager）通信，一旦与集群资源管理器连接，Spark会为该应用在各个集群节点上申请执行器（Executor），用于执行计算任务和存储数据。Spark将应用程序代码发送给所申请到的执行器，SparkContext对象将分割出的任务（Task）发送给各个执行器去运行。

需要注意的是，每个Spark应用程序都有其对应的多个执行器进程。执行器进程在整个应用程序生命周期内，都保持运行状态，并以多线程方式执行任务。这样做的好处是，执行器进程可以隔离每个Spark应用。从调度角度来看，每个驱动器可以独立调度本应用程序的内部任务。从执行器角度来看，不同Spark应用对应的任务将会在不同的JVM中运行。然而这样的架构也有缺点，多个Spark应用程序之间无法共享数据，除非把数据写到外部存储结构中。

Spark对底层的集群管理器一无所知，只要Spark能够申请到执行器进程，能与之通信即可。这种实现方式可以使Spark比较容易的在多种集群管理器上运行，例如Mesos、Yarn。

驱动器程序在整个生命周期内必须监听并接受其对应的各个执行器的连接请求，因此驱动器程序必须能够被所有Worker节点访问到。

因为集群上的任务是由驱动器来调度的，所以驱动器应该和Worker节点距离近一些，最好在同一个本地局域网中，如果需要远程对集群发起请求，最好还是在驱动器节点上启动RPC服务响应这些远程请求，同时把驱动器本身放在离集群Worker节点比较近的机器上。