学科分类
目录
Hadoop技术栈

大数据的特征

一般认为,大数据主要具有以下四个方面的典型特征,即大量(Volume)、多样(Varity)、高速(Velocity)和价值(Value),即所谓的“4V”,接下来,通过一张图来描述,具体图1所示。

img

图1 大数据4V特征

接下来针对图1中的4V特征进行简要介绍,具体如下:

1.Volume(大量)

大数据的特征首先就是数据规模大。随着互联网、物联网、移动互联技术的发展,人和事物的所有轨迹都可以被记录下来,数据呈现出爆发性增长。数据相关计量单位的换算关系如表1所示。

表1 单位换算关系

单位 换算公式
Byte 1 Byte = 8 bit
KB 1 KB = 1024 Byte
MB 1 MB = 1024 KB
GB 1 GB = 1024 MB
TB 1 TB = 1024 GB
PB 1 PB = 1024 TB
EB 1 EB = 1024 PB
ZB 1 ZB = 1024 EB

2.Variety(多样)

数据来源的广泛性,决定了数据形式的多样性。大数据可以分为三类,一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据问的因果关系弱。有统计显示,目前结构化数据占据整个互联网数据量的75%以上,而产生价值的大数据,往往是这些非结构化数据。

3.Velocity(高速)

数据的增长速度和处理速度是大数据高速性的重要体现。与以往的报纸、书信等传统数据载体生产传播方式不同,在大数据时代,大数据的交换和传播主要是通过互联网和云计算等方式实现的,其生产和传播数据的速度是非常迅速的。另外,大数据还要求处理数据的响应速度要快,例如,上亿条数据的分析必须在几秒内完成。数据的输入、处理与丢弃必须立刻见效,几乎无延迟。

4.Value(价值)

大数据的核心特征是价值,其实价值密度的高低和数据总量的大小是成反比的,即数据价值密度越高数据总量越小,数据价值密度越低数据总量越大。任何有价值的信息的提取依托的就是海量的基础数据,当然目前大数据背景下有个未解决的问题,如何通过强大的机器算法更迅速的在海量数据中完成数据的价值提纯。

点击此处
隐藏目录