DStream简介
Spark Streaming提供了一个高级抽象的流,即DStream(离散流)。DStream表示连续的数据流,可以通过Kafka、Flume和Kinesis等数据源创建,也可以通过现有DStream的高级操作来创建。DStream的内部结构如图1所示。
图1 DStream流的内部结构
从图1可以看出,DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段时间分隔开来的数据集。实际上,对DStream的任何操作,最终都会转变成对底层RDDs的操作。