常见的图表类型
图表是指在屏幕中显示的、可以直观地展示统计信息、对知识挖掘和信息生动感受起关键作用的图形结构,它是一种很好地将数据直观、形象的“可视化”的手段。
相较于数值和文字而言,合理的数据图表描述得更加清晰,可以更直观地反映出数据之间的关系,更好地了解数据变化的趋势,以便于对研究做出合理的推断和预测。
数据可视化最常见的应用是一些统计图表,比如直方图、散点图、饼图等,这些图表作为统计学的工具,创建了一条快速了解数据集的途径,并成为令人信服的沟通手段,所以可以在大量的方案、新闻中见到这些统计图形。
接下来,我们来介绍一些数据分析中比较常见的图表,具体包括:
1. 直方图
直方图,又称作质量分布图,它是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据的类型,纵轴表示分布情况。直方图示例如图1所示。
图1 直方图示例
通过观察可以发现,直方图可以利用方块的高度来反映数据的差异。不过,直方图只适用于中小规模的数据集,不适用于大规模的数据集。
2. 折线图
折线图是用直线段将各数据点连接起来而组成的图形,以折线的方式显示数据的变化趋势。折线图可以显示随时间(根据常用比例设置)变化的连续数据,适用于显示在相等时间间隔下数据的趋势。折线图示例如图2所示。
图2 折线图示例
上述折线图中,X轴表示季度,Y轴表示产品的销量,分别用三条不同颜色的线段和标记,描述了每个季度A产品、B产品、C产品的销售数量。折线图很容易可以反映出数据变化的趋势,比如哪个季度销售的数量变多,哪个季度销售的数量变少,通过折线的倾斜程度都能一览无余。另外,多条折线对比还能看出哪种产品销售的比较好,更受欢迎。
3. 条形图
条形图是用宽度相同的条形的高度或者长短来表示数据多少的图形,可以横置或纵置,纵置时也称为柱形图。条形图示例如图3所示。
图3 条形图示例
图6-4中,蓝色和绿色的条形分别表示饮料和点心的销量,通过条形的长短,可以比较华北和华东地区这两种商品的销售情况。
4. 饼图
饼图可以显示一个数据序列(图表中绘制的相关数据点)中各项的大小与各项总和的比例,每个数据序列具有唯一的颜色或图形,并且与图例中的颜色是相对应的。饼图示例如图4所示。
图4 饼图示例
饼图中的数据点由圆环图的扇面表示,相同颜色的扇面是一个数据系列,并用所占的百分比进行标注。饼图可以很清晰地反映出各数据系列的百分比情况。
5. 散点图
在回归分析中,散点图是指数据点在直角坐标系平面上的分布图,通常用于比较跨类别的数据。散点图包含的数据点越多,比较的效果就会越好。散点图示例如图5所示。
图5 散点图(示例)
散点图中每个坐标点的位置是由变量的值决定的,用于表示因变量随自变量而变化的大致趋势,以判断两种变量的相关性(分为正相关、负相关、不相关)。例如,身高与体重、经度与纬度等。
散点图适合显示若干数据序列中各数值之间的关系,以判断两变量之间是否存在某种关联。对于处理值的分布和数据点的分簇,散点图是非常理想的。
6. 箱形图
箱形图又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图,因形状如箱子而得名,在各种领域中也经常被使用,常见于品质管理。箱形图的展示如图6所示。
图6 箱形图(示例)
箱形图包含了六个数据节点,会将一组数据按照从大到小的顺序排列,分别计算出它的上边缘、上四分位数、中位数、下四分位数、下边缘,还有一个异常值。箱形图提供了一种只用5个点对数据集做简单总结的方式。
综上所述,上述几种常用的图表分别适用于如下应用场景:
(1) 直方图:适于比较数据之间的多少。
(2) 折线图:反映一组数据的变化趋势。
(3) 条形图:显示各个项目之间的比较情况,和直方图有类似的作用。
(4) 散点图:显示若干数据系列中各数值之间的关系,类似X、Y轴,判断两变量之间是否存在某种关联。
(5) 箱形图:识别异常值方面有一定的优越性。
多学一招:区分直方图与条形图
直方图与条形图的区别具体如下:
首先,条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。
其次,由于分组数据具有连续性,所以直方图的各矩形通常是连续排列的,而条形图则是分开排列的。
最后,条形图主要用于展示分类数据,而直方图则主要用于展示数据型数据。