采集数据为什么选择kafka

采集层主要可以使用Flume, Kafka两种技术。

Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API。

Kafka:Kafka是一个可持久化的分布式的消息队列。 Kafka是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics。

相比之下,Flume是一个专用工具被设计为旨在往HDFS,HBase发送数据。它对HDFS有特殊的优化,并且集成了Hadoop的安全特性。所以,Cloudera 建议如果数据被多个系统消费的话,使用Kafka;如果数据被设计给Hadoop使用,使用Flume。

点击此处
隐藏目录