学科分类
目录
Spark技术栈

常用的实时计算框架

目前,业内已经衍生出许多实时计算数据的框架,例如Apache Spark Streaming、Apache Storm、Apache Flink以及Yahoo!S4。

Apache Spark Streaming

即Apache公司免费、开源的实时计算框架。Apache Spark Streaming主要是把输入的数据按时间进行切分,切分的数据块并行计算处理,处理的速度可以达到秒级别。Netflix公司通过Kafka和Spark Streaming构建了实时引擎,对每天从各种数据源接收到的数十亿数据进行分析,从而完成电影的推荐。

Apache Storm

即Twitter公司免费、开源贡献给Apache的一个分布式实时计算系统。Apache Storm可以简单、高效、可靠地实时处理海量数据,处理数据的速度达到毫秒级别,并将处理后的结果数据保存到持久化介质中(如数据库、HDFS)。阿里巴巴公司JStorm,参考的就是Apache Storm开发的实时计算框架,可以说是Strom的增强版本,在网络I/O、线程模型、资源调度、可用性及稳定性上都做了极大的改进,供很多企业使用。

Apache Flink

即Apache公司开源的计算框架。Apache Flink不仅可以支持离线处理,还可以支持实时处理。由于离线处理和实时处理所提供的SLA(服务等级协议)是完全不相同的,所以离线处理一般需要支持低延迟的保证,而实时处理则需要支持高吞吐、高效率的处理。

Yahoo!S4(Simple Scalable Streaming System)

即Yahoo公司开源的实时计算平台。Yahoo!S4是通用的、分布式的、可扩展的,并且还具有容错和可插拔能力,供开发者轻松地处理源源不断产生的数据。

点击此处
隐藏目录