Python画箱线图展示数据分布情况
箱线图(Boxplot)是一种常用的统计图表,用于展示数据的分布情况。
它由五个统计量组成:最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)和最大值。
通过这些统计量,可以直观地了解数据的集中趋势、离散程度以及是否存在异常值。
构成要素
-
中位数(Q2):
- 箱线图中的中间线代表数据的中位数,即将数据按大小排列后中间位置的数值。
-
四分位数(Q1和Q3):
- 箱体的上边界(Q3)和下边界(Q1)分别表示数据的第三四分位数和第一四分位数。箱子的高度即为四分位距(IQR),是Q3和Q1的差值,用来衡量数据的离散程度。
-
盒须:
- 箱体外部的直线(盒须)延伸至数据集的最大值和最小值,用来显示非异常值的范围。盒须外部的点表示可能的异常值,即相对于主体数据分布偏离较大的数据点。
-
异常值:
- 在盒须外部的点表示可能存在的异常值,即与其他数据点相比显著偏离的数据。
使用场景
箱线图常用于以下情况:
- 数据分布比较:可以同时比较多组数据的分布情况,帮助观察各组数据的中位数、四分位数和离散程度。
- 异常值检测:通过观察箱体外部的点,可以快速发现可能的异常值或离群点。
- 数据分散度分析:箱体的长度和位置反映了数据的分散程度,有助于对数据的离散程度进行比较。
# 创建示例数据 data = { 'Group': ['A'] * 11 + ['B'] * 10 + ['C'] * 10, 'Value': [23, 25, 19, 21, 24, 27, 22, 20, 21, 24, -1, # Group A 30, 28, 36, 31, 34, 29, 35, 33, 32, 30, # Group B 15, 17, 14, 16, 13, 18, 14, 15, 17, 16] # Group C } # 转换为 DataFrame df = pd.DataFrame(data) # 设置绘图风格 sns.set() # 绘制箱线图 plt.figure(figsize=(10, 6)) sns.boxplot(x='Group', y='Value', data=df) # 添加标题和标签 plt.title('Box Plot of Three Groups') plt.xlabel('Group') plt.ylabel('Value') # 显示图表 # plt.show() plt.savefig('./boxPlot_seaborn.png')
- 中位数(箱体内部的横线):每个组的数据中间值。
- 四分位数(箱体的上下边缘):分别表示25%和75%的数据点。
- 最小值和最大值(盒须的末端):除去异常值后数据的范围。
- 异常值(箱体外的点):与其他数据点相距较远的数值。
文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。