Seaborn 是基于 matplotlib 的 Python 可视化库。 它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn 其实是在 matplotlib 的基础上进行了更高级的 API 封装,从而使得作图更加容易,不需要经过大量的调整就能使你的图变得精致。但应强调的是,应该把 Seaborn 视为 matplotlib 的补充,而不是替代物。
那么有个问题,对于不同类型的数据,比如数值标签型和数据连续型要如何选择对应的图标来表示呢?
sns.FacetGrid
sns.kdeplot
sns.pairplot
sns.heatmap
sns.lineplot(data=fifa_data)
sns.countplot(x=df_not_num.columns[i], alpha=0.7, data=df_not_num, ax=ax)
lmplot
boxplot
箱线图(Boxplot)也称箱须图(Box-whisker Plot),利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。
大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。
箱线图的具体功能:
- 直观明了地识别数据批中的异常值
- 利用箱线图判断数据集的偏态和尾重 😳
- 利用箱线图比较几批数据的形状
- 可以通过看上下四分位的距离看出数据是否比较集中
violinplot
小提琴图 (Violin Plot) 用于显示数据分布及其概率密度。这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。中间的黑色粗条表示四分位数范围,从其延伸的幼细黑线代表 95% 置信区间,而白点则为中位数。
violinplot 与 boxplot 扮演类似的角色,它显示了定量数据在一个(或多个)分类变量的多个层次上的分布,这些分布可以进行比较。不像箱形图中所有绘图组件都对应于实际数据点,小提琴绘图以基础分布的核密度估计为特征。
离散点连线图
sns.factorplot(data=df, x="model_year", y="mpg")