HBase的瓶颈
(1)问题分析
是对你大数据基础的考核,先讲概念,再讲瓶颈。同时可以延伸业务场景,考察学生在项目实战中不同服务如何区分配合使用。
(2)核心问题回答
什么是hbase
HBase是建立在HDFS之上,提供高可靠性的列存储,实时读写的数据库系统。它介于Nosql和关系型数据库之间,仅通过主键和主键的range来检索数据,仅支持单行事务。主要用来存储非结构化和半结构化的松散数据。
hbase的瓶颈问题
不能支持条件查询,只支持按照Row key来查询.
暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉。
磁盘IO瓶颈限制,数据存储在磁盘上,不如直接存储在内存中的Redis读写快。
(3)问题扩展
hive是基于Hadoop的数据仓库工具,可以将结构化数据文件映射为数据库表。并提供简单的sql功能,可以将sql转化为mr任务运行。因为sql学习成本低,不必专门开发mr应用,十分适合数据仓库的统计分析。 Hive和Hbase是两种基于Hadoop的不同技术:Hive是一种类SQL的引擎,并且运行MapReduce任务。Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库,只支持简单的行列操作。
(4)项目应用
在哪种场景下,使用哪种技术。HBase可以用来做历史数据的固化和快速查询;Hive可以用来进行离线统计查询;Redis用来做性能要求很高的实时缓存;他们之间也是可以配合使用的。