环境准备
由于Spark仅仅是一种计算框架,不负责数据的存储和管理,因此,通常都会将Spark和Hadoop进行统一部署,由Hadoop中的HDFS、HBase等组件负责数据的存储管理,Spark负责数据计算。
安装Spark集群之前,需要安装Hadoop环境,本教材采用如下配置环境。
- Linux系统:CentOS_6.7版本
- Hadoop:2.7.4版本
- JDK:1.8版本
- Spark:2.3.2版本
关于Hadoop开发环境的安装不是本教材的重点,如果有读者未安装,请参考《Hadoop大数据技术与应用》完成Hadoop环境的安装。