python中的数据分布
集中趋势
集中趋势,又被称为“数据的中心位置”。
它能够代表性的描绘总体数据的某一特征。通常用平均数来反映数据的集中趋势。
数值平均数,才是我们过往说的平均数,它更专业的名字,叫做“均值”。
位置平均数,指的是“中位数。
例如要获取成绩单里成绩的均值和中位数
import pandas as pd data = pd.read_csv(r"C:\Users\17585\Desktop\成绩单.csv") # 使用mean()函数,获取成绩单的均值 mean = data["成绩"].mean() # 使用median()函数,获取成绩的中位数 median = data["成绩"].median() # 分别输出均值和中位数 print(mean) print(median)
绘制直方图
直方图,是一种常用来展示数值数据分布的图表。
直方图和柱状图的区别:
1.直方图体现的是数据在各个区间的分布情况。而柱状图体现的是各个数据的变化趋势。
2.直方图x轴只能是数值型数据,而柱状图可以是类别型数据。
3.直方图是连续的图形分布,y轴是这一段区间内数量的总和。而柱状图是单一的柱形,y轴是这一个值对应的数量。
绘制直方图时,可以用plt.hist函数:
import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv(r"C:\Users\17585\Desktop\成绩单.csv") # 使用mean()函数,获取成绩单的均值 mean = data["成绩"].mean() # 使用median()函数,获取成绩的中位数 median = data["成绩"].median() # 分别输出均值和中位数 print(mean) print(median) # 绘制直方图,bins可以用来设置区间的数量 plt.hist(data["成绩"],bins=100) plt.show()
正态与偏态
正态分布,是日常生活中最为常见的一种分布状态。
它的特点是数据的分布相对均匀,并且符合统计学集中的规律。
直方图左右对称,数据的均值、中位数都相等。
而偏态,就是指数据的分布状态,并不是完全对称的。由于一些极端大、极端小的数据影响,使得数据分布会出现向左偏或者向右偏。
偏态直接反映在中位数和均值的大小上。
右偏态:中位数
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!