统计学

统计学笔记:第三章 数据的图表展示

LensNews

数据的图表展示


学习目标

  1. 了解数据预处理的内容和目的
  2. 掌握分类和顺序数据的整理与显示方法
  3. 掌握数值型数据的整理与显示方法
  4. 用Excel作频数分布表和图形
  5. 合理使用统计表

3.1 数据的预处理

3.1.1 数据的审核

  • 检查数据中的错误

原始数据的审核

  1. 完整性审核
    • 检查应调查的单位或个体是否有遗漏
    • 所有的调查项目或指标是否填写齐全
  2. 准确性审核
    • 检查数据是否真实地反映客观事实,内容是否符合实际
    • 检查数据是否有错误,计算是否是正确的

二手数据的审核

  1. 适用性审核
    • 弄清楚数据的来源、数据的口径以及相关的背景材料
    • 确定数据是否符合自己分析研究
  2. 时效性审核 尽可能使用最新数据
  3. 确认是否有必要做进一步的加工整理

3.1.2 数据的筛选

找出符合条件的数据

  1. 当数据中的错误不能予以纠正或者当前数据不符合点差的要求而又无法弥补时,需要对数据进行筛选
  2. 数据筛选的内容
  • 将某些不符合要求的数据或有明确错误的数据予以删除
  • 将符合某些特定条件的数据筛选出来,而不符合的数据剔除掉

3.1.3 数据的排序

  • 升序和降序
  • 寻找数据的基本特征
  1. 按照一定的顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
  2. 排序有助于对数据检查纠错,以及为重新归类或分组等提供依据
  3. 在某些场合,排序本身就是分析的目的之一
  4. 排序可以借助计算机完成

数据的排序

  1. 分类数据的排序
  • 字母型数据,排序有圣墟降序之分,习惯上使用升序
  • 汉子型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中笔画的多少也有升序和降序之分
  1. 数值型数据的排序
  • 递增排序
  • 递减排序

3.1.4 数据透视表

利用excel提供的数据透视表工具可对数据表的重要信息按照使用者的习惯或分析进行汇总和作图,形成一个符合需要的交叉表和列联表

利用数据透视表时,数据源表中的首行必须要有列标题的


分类和顺序数据的整理与显示(品质数据)

3.2.1 分类数据的整理与图示

数据的整理与显示
  1. 要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的
  2. 对分类数据和顺序数据主要是作分类整理
  3. 对数值型数据则主要作分组整理
  4. 适合于低层次数据的整理和显示方法,同样适用于高层次数据;但是适合于高层次数据的整理和显示方法并不适合于低层次的数据。
  5. 低层次数据指分类数据和顺序数据,高层次数据指数值数据
分类数据的整理过程
  1. 列出各类别
  2. 计算各类别的频数
  3. 制作频数分布表
  4. 用图形显示数据
分类数据的整理
  1. 频数(frequency):落在各类别中的数据个数
  2. 比例(): 某一类别数据占全部数据的比值
  3. 百分比: 将对比的基数除以总数乘以100而计算的比值
  4. 比率: 不同类别数值的比值

频数分布表
列联表

分类数据的图示——条形图
  1. 用宽度相同的条形的高度或长短来表示类别数据的图形
  2. 有单式条形图、复式条形图等形式
  3. 主要用于反映分类数据的频数分布
  4. 绘制时,各类表可以放在纵轴,称为条形图,可以放在横轴,称为柱形图
分类数据的图示-帕累托图
  1. 以意大利经济学家V. Pareto的名字命名的
  2. 该图是按照各类别数据出现的频数多少而排序后绘制的条形图
  3. 通过对条形的排序,容易看出哪类数据出现的多,哪类数据出现的少
分类数据的图示——饼图
  1. 也成为圆形图,是用圆形以及圆内扇形的角度来表示数值大小的图形
  2. 主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用
  3. 绘制原型图时,总体中各部分所占的百分比用个扇形的角度表示,这些扇形的中心角度,是按各部分数据百分比占360度的比例确定的。
  4. 饼图的类型: 单式饼图,复式饼图(并不常见)

3.2.2 顺序数据的整理与图示

  1. 累积频数:类别频数的逐级累加
  2. 累积频率:类别频率(百分比)的逐级累加

顺序数据的频数分布表

顺序数据的图示 —— 累积频数分布图

有了累积频数分布表之后就能画累积频数分布图了

顺序数据的图示 —— 环形图

  1. 环形图中间有一个空洞,总体中的每一部分数据用环中的一段表示
  2. 环形图与饼图类似,但是又有区别:
    • 饼图只能显示一个总体各部分的占的比例
    • 环形图则可以同时绘制多个总体的数据系列,每一个总体数据系列为一个环
  3. 环形图可用于结构比较研究
  4. 环形图主要用于展示分类数据和顺序数据

数值型数据的整理与显示

3.3.1 数据分组

分组方法

  1. 单变量值分组 : 主要用于离散型数据
  2. 组距分组 : 主要用于连续型数据
    1. 等距组距分组
    2. 异距分组
单变量分组
  1. 将一个变量值作为一组
  2. 适合于离散变量
  3. 适合于变量值较少的情况
组距分组

特点

  1. 将变量值的一个区间作为一个组
  2. 适用于连续变量
  3. 适用于变量值较多的情况
  4. 需要遵循“不重不漏”的原则
  5. 可采用等距分组,也采用不等距分组

步骤:

  1. 确定组数:组数的确定应以能够显示的数据的分布特征和规律为目的。在实际分组中,可以按Sturges提出的经验公式来确定组数:
K=1+\dfrac{lg n}{lg 2}
  1. 确定组距: 组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值与最小值所分的组数来确定,即:
    组距=(最大值 - 最小值)÷ 组数
  2. 统计出各组的频数并整理成频数分布表
组距分组的几个概念:
  1. 下限(low limit):一个组的最小值
  2. 上限(upper limit): 一个组的最大值
  3. 组距(class width): 上限与下限之差
  4. 组中值(class midpiont): 下限与上限之间的中点值
    组中值=(下限值+上限值)÷2
组距等距分组与不等距分组

(在表现频数分布上的差异)

  1. 等距分组
    • 各组频数的分布不受组距大小的影响
    • 可直接根据绝对频数来观察频数分布的特征
  2. 不等距分组
    • 各组频数的分布受组距带下不同的影响
    • 各组绝对频数的多少不能反应频数分布的实际情况
    • 需要使用频数密度(频数密度=频数 ÷ 组距)来反应频数分布的实际状况

3.3.2 数值型数据的图示

分组数据 - 直方图和折线图

分组数据 —— 直方图(histogram)
  1. 用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布;
  2. 在直角坐标系中,用横轴表示数据分组,用纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即是直方图;
  3. 直方图与条形图的区别:
    1. 条形图是用条形的长度(横置时)表示各类别的频数的多少,其宽度(表示类别)则是固定的;
    2. 直方图是用面积来表示各组频数的或百分比,宽度用来表示各组的组距,其高度与宽度具有意义;
    3. 直方图的各矩形通常是连续排列,条形图则是分开排列;
    4. 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据;
分组数据 —— 折线图
  1. 折线图也称频数多边形图
  2. 是在直方图的基础上,把直方图顶部的中点(也就是说组中值)用直线连接起来,再把原来的直方图抹去;
  3. 折线图的两个中点要与横轴相交,具体的做法如下
    1. 第一个矩形的顶部中点通过竖边中点(该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点链接到横轴;
    2. 折线图下所围成的面积与直方图所围成的面积是一致大小的,二者所表示的频数分布也是一致的;

未分组数据 - 茎叶图和箱线图

未分组数据 —— 茎叶图
  1. 用于显示未分组的原始数据的分布;
  2. 由“茎”和“叶”两部分构成,其图形是由数字组成的;
  3. 以该组数据的高位数值作数茎,低位数字作树叶;
  4. 树叶上只保留一位数字;
  5. 对于n(20≤n≤300)个数据,茎叶图最大行数不超过 L=10×lg N;
  6. 茎叶图类似于横置的直方图,但是又有所区别:
    1. 直方图可观察一组数据的分布状况,单没有给出具体的数值;
    2. 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息;
未分组数据 —— 箱线图(box plot)
  1. 用于显示未分组的原始数据的分布;
  2. 箱线图由一组数据的5个特征值绘制而成,它由一个箱子的两条线段组成;
  3. 箱线图的绘制方法
    1. 首先找出一组数据的5个特征值,即:最大值、最小值、中位数M和两个四分位数(下四分位数和上四分位数);
    2. 连接两个四分位数画出箱子,然后将两个极值点和箱子相连;

时间序列数据 —— 线图(line plot)

绘制线图时应注意以下几点

  1. 时间一般会在横轴,指标数据绘制在纵轴;
  2. 图形的长宽比例要适当,其长宽比例大致为10:7;
  3. 一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“ 0 ”之间的间距过大时,可以采取折断的符号将纵轴折断;

多变量数据 —— 散点图、气泡图和雷达图

散点图( scatter diagram) 两个变量
  1. 散点图是用二维坐标展示两个变量之间关系的一种图形;
  2. 它是用坐标横轴代表变量X,纵轴代表变量Y,每组数据(x,y)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点成为散点,由坐标及其散点形成的二维数据图称为散点图;
气泡图 (buble chart) 三个变量
  1. 气泡图可用于展示三个变量之间的关系;
  2. 与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量用气泡的大小来表示;
雷达图 (radar chart) 三个以上变量
  1. 显示多个变量的图示方法;
  2. 在显示或对比个变量的数值总和时十分有用;
  3. 嘉定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比;
  4. 可用于研究多个样本之间的相似程度;
  5. 雷达图的绘制
    1. 设有n租样本S1,S2,S3…… ,Sn,每个样本测得P个变量X1,X2,..... ,Xp,要绘制这个P个变量的雷达图,其具体做法如下
    2. 先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,再将这个P个点与原型连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示;
    3. 再将同一样本的值在P个坐标上的点连线,这样,n个样本就形成的n个多边形就是一个雷达图;

数据类型与图示方法汇总图

微信图片_20180821175631

常见的频数分布的类型

  1. 对称分布
  2. 右偏分布
  3. 左偏分布
  4. 正J型分布
  5. 反J型分布
  6. U型分布

3.4 统计表

3.4.1 鉴别图表优劣的准则

一张好的图形应该有以下基本特征:

  1. 显示数据;
  2. 让读者把注意力集中在图形内容上而不是制作图形的程序上;
  3. 避免歪曲;
  4. 强调数据之间的比较;
  5. 服务于一个明确的目的;
  6. 有对于图形的统计描述和文字说明;

鉴别图形优劣的准则:

  1. 一张好图应当精心设计,有助于洞察问题的实质;
  2. 一张好图应当使复杂的观点得到简明、确切、高效的阐述;
  3. 一张好图应当能在最短的时间内意最少的笔墨给读者提供最大量的信息;
  4. 一张好图应当使多维的;
  5. 一张好图应当表述数据的真实情况;

3.4.2 统计表的设计

  1. 合理安排统计表的结构;
  2. 总标题内容应该满足3W要求,What、Where、When;
  3. 数据计量单位相同时,可放在表的右上角标明,不同时应该放在每个指标后或者单列出一列标明;
  4. 表中的上下两条横线一般用粗线,其他线用细线;
  5. 通常情况下,统计表的左右两边不封口;
  6. 表中的数据一般是右对齐,有小数点的时候应该以小数点对齐,而且小数点的位数应统一;
  7. 对于没有数字的表格单元,一般用“ — ”表示;
  8. 必要时可在表的下方加上注释;

本章总结

  1. 数据预处理的内容和目的;
  2. 分类和顺序数据的整理与现实方法;
  3. 数值型数据的整理与显示方法;
  4. 合理使用统计表;
  5. 用Excel作频数分布表和图形;

完成学习于 2018-08-21

(0)

本文由 SilenceLee的学习笔记 作者:silencelee 发表,转载请注明来源!

LensNews

热评文章

发表回复