统计学9——分类数据统计

2024-07-16 1108阅读

 知识结构

统计学9——分类数据统计

 内容精读

1.分类数据与$\chi^2$统计量

分类数据在第一章已经进行了详细介绍,就是对数据进行分类的结果,特征是,调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。由此分类数据的结果是频数,而$\chi^2$检验是对频数进行分析的统计分析方法

$\chi^2$统计量作为三大统计量之一,可以用于测定两个分类变量间的相关程度。

$$\chi^2=\sigma\frac{(f_{0}-f_{e})^2}{f_{2}}$$

其中$f_{0}$表示观察值频数,$f_{2}$表示期望值频数

 $\chi^2$统计量描述了观察值与期望值的接近程度,两者越接近,$\chi^2$就越小。

2.拟合优度检验

 拟合优度检验是用$\chi^2$统计量进行统计的显著性检验的一个重要内容。依据总体分布状况,计算出分类变量中各类别的期望频数,与观察频数进行对比,判断期望频数与观察频数是否有显著差异。

拟合优度检验的一般步骤如下:

  • 计算$f_{0}-f_{e}$
  • 计算$(f_{0}-f_{e})^2$
  • 计算$(f_{0}-f_{e})^2/f_{e}$
  • 计算$\chi^2$
  • 与$\chi^2_{\alpha}(R-1)$进行比较,若$\chi^2>\chi^2_{\alpha}(R-1)$,则认为观察频数与期望频数有显著差异。说明选取的分类特征对研究问题是有影响的。

    3.独立性检验

    拟合优度是对一个变量的检验,有时候我们也会遇到变量数不唯一的问题,比如研究两个变量间是否存在联系。这种对两个变量的研究又称为独立性检验,通常借助列联表进行性展示。

    所谓列联表就是将两个或以上的变量进行交叉分类的频数分布表。

    地区一级二级三级合计
    526424140
    605952171
    506574189
    合计162188150500

    上面就是一个3×3的二维列联表,三个地区与三个等级间相互交叉。 

     针对上面的列联表,独立性检验就是检查地区与等级之间是否有关联。

    计算方法与拟合优度相同,都需要构建$\chi^2$统计量。只是对于列联表中每个单位的期望频数采用$f_{e}=\frac{RT×CT}{n}$,RT、CT分别为单元所在行、列的合计值。$\chi^2$统计量的自由度df=(R-1)(C-1),若$\chi^2>\chi^2_{\alpha}{(R-1)(C-1)}$,则拒绝原假设,认为两变量间不是相互独立的。

    4.相关性检验 

    前面的独立性检验只是判断两个变量是否存在联系,那么如果存在联系,联系的程度又是怎样的呢?这时候就需要进行相关性检验。

    $\varphi $相关系数

    $$\varphi=\sqrt{\chi^2/n}$$

    是列联表中最常用的一种相关系数。$\varphi$的值应该在0-1之间,当两个变量相互独立时,$\varphi=0$,$\varphi=1 或 \varphi=-1$时是两个变量完全相关的一种情况。$\varphi$的绝对值越大,就说明变量的相关程度越高。

    ps:

    当列联表的行或列大于2时,$\varphi$会随着行列的变大而变大,且没有上限,这时使用$\varphi$测定相关程度就不够清晰了。

    c相关系数

    $$c=\sqrt{\frac{\chi^2}{\chi^2+n}}$$

    c系数主要用于列联表大于2×2的情况。同样当两个变量相互独立式c=0,并且它不会大于1。c系数的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大,因此根据不同的行和列计算的列联系数不便于比较。但因其计算简便,且对总体分布没有要求,在实际的使用较为广泛。

    V相关系数

    $$V=\sqrt{\frac {\chi^2} {n×min[(R-1),(C-1)]} }$$

    跟前两个系数相同的是,当两变量相互独立时,V也等于0,此外当两变量完全相关V=1,对于行列中一个维度为2时,V系数的值就等于$\varphi$系数

    以上三种相关系数均是实际中常用的相关性检验的方法,但需要注意的时,使用时要注意列联表的行列数和是否是一个相关系数,只有相同行列个数的列联表,并且采用同一种系数,这样的比较才是有意义的。

    5.$\chi^2$分布的期望值准则

    在使用$\chi^2$分布进行独立性检验是,样本量必须足够大,否则可能会出现错误,有这样两条准则:

    • 如果只有两个单元,每个单元的期望频数必须大于等于5.
    • 如果有两个以上单元,20%的单元的期望频数小于5,则不能使用$\chi^2$检验。

      名词解释

      拟合优度检验 

      是用x2统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著性差异,从而达到对分类变量进行分析的目的。

       列联独立性检验

      独立性检验是对两个分类变量的分析,分析列联表中行变量和列变量是否相互独立。

VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]