基础图表类型(一):比较类图表
5 / 7
基础图表类型(三):关系类图表
自在学
首页课程创意工坊价格
首页课程创意工坊价格
编程数据可视化基础图表类型(二):分布类图表

基础图表类型(二):分布类图表

在数据分析中,了解数据的分布特征是非常重要的。数据的分布告诉我们数据是如何分散的,是否存在异常值,是否符合某种理论分布等。分布类图表专门用于展示数据的分布特征,帮助我们理解数据的本质。

基础图表类型(二):分布类图表


直方图:连续数据分布

直方图(Histogram)是最常用的分布类图表之一。它通过将数据分成若干个区间(称为"箱"或"bin"),统计每个区间内数据的频数,然后用柱状图来展示。直方图可以直观地展示数据的分布形状,帮助我们了解数据的中心趋势、离散程度、偏度等特征。

直方图的基本原理

直方图的核心是将连续数据离散化。我们将数据的取值范围分成若干个等宽的区间,然后统计每个区间内有多少个数据点。每个区间用一个柱子来表示,柱子的高度表示该区间内数据的频数(或频率)。

区间宽度的选择对直方图的形状有很大影响。如果区间太宽,会丢失细节,分布的形状不够清晰。如果区间太窄,会产生很多噪声,分布的形状也不够清晰。通常,我们可以使用一些经验公式来选择区间宽度,如Sturges公式、Scott公式、Freedman-Diaconis公式等。

直方图的应用场景

直方图适合以下场景:数据是连续的,需要了解数据的分布形状,需要识别异常值,需要判断数据是否符合某种理论分布。

比如,在分析学生成绩时,我们可以用直方图来展示成绩的分布,看看成绩是正态分布还是偏态分布,是否存在异常的低分或高分。在分析产品质量时,我们可以用直方图来展示产品尺寸的分布,看看是否符合规格要求。

下面是一个直方图的示例,展示了某班级学生数学成绩的分布:

从图中可以清楚地看到,成绩分布大致呈正态分布,大部分学生的成绩集中在70-90分之间,两端的学生较少。这种分布形状是教育数据中常见的。

直方图的解读

在解读直方图时,我们需要注意以下几个方面:

  • 分布形状:数据是单峰还是多峰?是对称还是偏态?如果是单峰对称,可能符合正态分布。如果是多峰,可能表示数据来自不同的群体。
  • 中心趋势:数据集中在哪个区间?这可以帮助我们了解数据的典型值。
  • 离散程度:数据是集中还是分散?如果柱子集中在中间,数据比较集中。如果柱子分布较广,数据比较分散。
  • 异常值:是否存在远离主要分布的柱子?这些可能是异常值,需要进一步调查。

直方图与柱状图的区别

直方图和柱状图在视觉上很相似,但它们在本质上是不同的。柱状图用于比较不同类别的数值,类别之间是独立的,没有顺序关系。直方图用于展示连续数据的分布,区间之间是连续的,有顺序关系。

在柱状图中,柱子之间通常有间隙,表示类别之间的独立性。在直方图中,柱子之间通常没有间隙,或者间隙很小,表示数据的连续性。


箱线图:四分位数和异常值展示

箱线图(Box Plot),也称为盒须图(Box-and-Whisker Plot),是一种用于展示数据分布和识别异常值的图表。 箱线图用简洁的方式展示了数据的五个关键统计量:最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)、最大值。

箱线图的结构

箱线图由一个箱子和两条须线组成。箱子的下边界是第一四分位数(Q1),上边界是第三四分位数(Q3),箱子中间有一条线表示中位数(Q2)。箱子的高度是四分位距(IQR = Q3 - Q1),表示数据的离散程度。

须线从箱子的上下边界延伸出去,通常延伸到1.5倍IQR的范围。如果数据点超出这个范围,会被标记为异常值(Outlier),用点来表示。

箱线图的应用场景

箱线图适合以下场景:需要比较多个组的分布,需要识别异常值,需要了解数据的离散程度,数据量较大。

比如,在比较不同班级的成绩分布时,我们可以用箱线图来展示每个班级的成绩分布,比较它们的中位数、四分位距、异常值等。在分析产品质量时,我们可以用箱线图来比较不同生产线的产品尺寸分布。

箱线图的优势在于,它能够在有限的空间内展示丰富的信息,特别适合比较多个组的分布。箱线图的局限性在于,它不展示分布的详细形状,只展示关键的统计量。

箱线图的解读

在解读箱线图时,我们需要注意以下几个方面:

  • 中位数:中位数是数据的中心趋势,不受异常值影响。如果中位数偏向箱子的某一端,表示数据是偏态的。
  • 四分位距:四分位距(IQR)是数据的离散程度。IQR越大,数据越分散。IQR越小,数据越集中。
  • 异常值:超出1.5倍IQR范围的数据点被认为是异常值。异常值可能是错误数据,也可能是真实但特殊的情况,需要进一步调查。
  • 对称性:如果中位数在箱子的中间,表示数据大致对称。如果中位数偏向箱子的某一端,表示数据是偏态的。

下面是一个箱线图的示例,展示了三个班级数学成绩的分布对比:

从图中可以清楚地看到,班级A的成绩中位数最高,但离散程度也最大,有较多的异常值。班级B的成绩中位数居中,离散程度适中。班级C的成绩中位数最低,但离散程度最小,数据比较集中。

分组箱线图

当我们需要比较多个组的分布时,可以使用分组箱线图。分组箱线图将多个箱线图并排显示,让我们能够直观地比较不同组的分布特征。

分组箱线图适合以下场景:需要比较多个组的分布,组的数量不太多(通常不超过10个),需要识别组间的差异。


小提琴图:分布密度可视化

小提琴图(Violin Plot)是箱线图和密度图的结合。它既展示了数据的统计量(如中位数、四分位数),又展示了数据的分布密度。小提琴图的形状像小提琴,因此得名。

小提琴图的结构

小提琴图由两部分组成:中间的箱线图部分和两侧的密度图部分。中间的箱线图展示了数据的统计量,两侧的密度图展示了数据的分布密度。密度图是通过核密度估计(Kernel Density Estimation)生成的,展示了数据在不同值上的密度。

小提琴图的宽度表示该值附近数据的密度。宽度越大,表示该值附近的数据越多。宽度越小,表示该值附近的数据越少。

小提琴图的应用场景

小提琴图适合以下场景:需要同时了解统计量和分布形状,需要比较多个组的分布,数据量较大。

小提琴图的优势在于,它结合了箱线图和密度图的优点,既展示了统计量,又展示了分布形状。小提琴图的局限性在于,当数据量较小时,密度估计可能不够准确,小提琴的形状可能不够平滑。

小提琴图的解读

在解读小提琴图时,我们需要注意以下几个方面:

  • 分布形状:小提琴的形状展示了数据的分布形状。如果小提琴是对称的,表示数据大致对称。如果小提琴是偏态的,表示数据是偏态的。
  • 密度:小提琴的宽度表示数据的密度。宽度大的地方,数据多。宽度小的地方,数据少。
  • 统计量:中间箱线图部分展示了数据的统计量,如中位数、四分位数等。

下面是一个小提琴图的示例,展示了三个班级数学成绩的分布:

从图中可以清楚地看到,班级A的成绩分布是双峰的,可能表示学生分为两个群体。班级B的成绩分布大致对称,呈正态分布。班级C的成绩分布是左偏的,大部分学生的成绩较低。


散点图:两个变量关系

散点图(Scatter Plot)使用点来表示两个变量的关系。每个点代表一个观测值,点的横坐标表示一个变量的值,点的纵坐标表示另一个变量的值。散点图可以直观地展示两个变量之间的关系,如正相关、负相关、非线性关系等。

散点图的基本原理

散点图的核心是将两个变量的值映射到二维平面上。如果两个变量之间存在关系,点会呈现出某种模式。如果两个变量之间没有关系,点会随机分布。

散点图可以展示多种关系类型:正相关(一个变量增加,另一个变量也增加)、负相关(一个变量增加,另一个变量减少)、非线性关系(关系不是线性的)、无关系(点随机分布)。

散点图的应用场景

散点图适合以下场景:需要探索两个变量之间的关系,数据是数值型的,数据量不太大(通常不超过1000个点)。

比如,在分析身高和体重的关系时,我们可以用散点图来展示它们之间的关系,看看是否存在线性关系。在分析广告投入和销售额的关系时,我们可以用散点图来探索它们之间的关系,看看是否存在相关性。

下面是一个散点图的示例,展示了身高和体重的关系:

从图中可以清楚地看到,身高和体重之间存在正相关关系,身高越高,体重越重。点的分布大致呈线性,但存在一定的离散性。

散点图的解读

在解读散点图时,我们需要注意以下几个方面:

  • 关系类型:两个变量之间是否存在关系?是正相关、负相关,还是无关系?
  • 关系强度:如果存在关系,关系的强度如何?点越接近一条直线,关系越强。点越分散,关系越弱。
  • 关系形状:关系是线性的还是非线性的?如果是线性的,点大致分布在一条直线上。如果是非线性的,点会呈现出曲线模式。
  • 异常值:是否存在远离主要模式的点?这些可能是异常值,需要进一步调查。
  • 聚类:点是否形成聚类?如果存在聚类,可能表示数据来自不同的群体。

分组散点图

当我们需要比较不同组的关系时,可以使用分组散点图。分组散点图使用不同的颜色或形状来区分不同的组,让我们能够同时比较多个组的关系。

分组散点图适合以下场景:需要比较多个组的关系,组的数量不太多(通常不超过5个),需要识别组间的差异。


密度图:概率密度函数可视化

密度图(Density Plot)通过估计数据的概率密度函数来展示数据的分布。密度图类似于直方图,但它是连续的、平滑的,更适合展示分布的详细形状。

密度图的基本原理

密度图使用核密度估计(Kernel Density Estimation, KDE)来估计数据的概率密度函数。核密度估计是一种非参数方法,它不需要假设数据符合某种理论分布,而是直接从数据中估计密度函数。

核密度估计的基本思想是:在每个数据点周围放置一个核函数(通常是高斯函数),然后将所有核函数叠加起来,得到密度估计。核函数的带宽(bandwidth)决定了估计的平滑程度。带宽越大,估计越平滑,但可能丢失细节。带宽越小,估计越详细,但可能产生噪声。

密度图的应用场景

密度图适合以下场景:需要展示分布的详细形状,需要比较多个组的分布,数据是连续的。

密度图的优势在于,它是连续的、平滑的,能够清晰地展示分布的详细形状,包括多峰、偏态等特征。密度图的局限性在于,它依赖于核密度估计的参数选择,不同的参数可能产生不同的结果。

密度图的解读

在解读密度图时,我们需要注意以下几个方面:

  • 分布形状:密度曲线的形状展示了数据的分布形状。如果是单峰对称,可能符合正态分布。如果是多峰,可能表示数据来自不同的群体。如果是偏态,表示数据是偏态的。
  • 峰值位置:密度曲线的峰值位置表示数据的中心趋势,类似于直方图的峰值。
  • 尾部形状:密度曲线的尾部形状表示数据的离散程度。尾部越宽,数据越分散。尾部越窄,数据越集中。

下面是一个密度图的示例,展示了三个班级数学成绩的分布密度:

从图中可以清楚地看到,班级A的成绩分布是双峰的,可能表示学生分为两个群体。班级B的成绩分布大致对称,呈正态分布。班级C的成绩分布是左偏的,大部分学生的成绩较低。

分组密度图

当我们需要比较多个组的分布时,可以使用分组密度图。分组密度图将多个密度曲线叠加显示,让我们能够直观地比较不同组的分布特征。

分组密度图适合以下场景:需要比较多个组的分布,组的数量不太多(通常不超过5个),需要识别组间的差异。


小结

分布类图表是数据可视化中的重要工具,它们帮助我们理解数据的本质特征。掌握直方图、箱线图、小提琴图、散点图、密度图等图表的特点和使用场景,能够帮助我们更好地分析数据,发现数据中的规律和异常。

在接下来的学习中,我们将学习关系类图表,了解如何展示变量之间的复杂关系。

  • 直方图:连续数据分布
    • 直方图的基本原理
    • 直方图的应用场景
    • 直方图的解读
    • 直方图与柱状图的区别
  • 箱线图:四分位数和异常值展示
    • 箱线图的结构
    • 箱线图的应用场景
    • 箱线图的解读
    • 分组箱线图
  • 小提琴图:分布密度可视化
    • 小提琴图的结构
    • 小提琴图的应用场景
    • 小提琴图的解读
  • 散点图:两个变量关系
    • 散点图的基本原理
    • 散点图的应用场景
    • 散点图的解读
    • 分组散点图
  • 密度图:概率密度函数可视化
    • 密度图的基本原理
    • 密度图的应用场景
    • 密度图的解读
    • 分组密度图
  • 小结

目录

  • 直方图:连续数据分布
    • 直方图的基本原理
    • 直方图的应用场景
    • 直方图的解读
    • 直方图与柱状图的区别
  • 箱线图:四分位数和异常值展示
    • 箱线图的结构
    • 箱线图的应用场景
    • 箱线图的解读
    • 分组箱线图
  • 小提琴图:分布密度可视化
    • 小提琴图的结构
    • 小提琴图的应用场景
    • 小提琴图的解读
  • 散点图:两个变量关系
    • 散点图的基本原理
    • 散点图的应用场景
    • 散点图的解读
    • 分组散点图
  • 密度图:概率密度函数可视化
    • 密度图的基本原理
    • 密度图的应用场景
    • 密度图的解读
    • 分组密度图
  • 小结
自在学

© 2025 自在学,保留所有权利。

公网安备湘公网安备43020302000292号 | 湘ICP备2025148919号-1

关于我们隐私政策使用条款

© 2025 自在学,保留所有权利。

公网安备湘公网安备43020302000292号湘ICP备2025148919号-1