统计学

统计学笔记:第二章 数据的搜集

数据的来源

调查数据

实验数据

数据的误差

数据的来源

间接来源

原信息已经存在,只是对其进行加工,可以直接使用的数据。也叫二手数据

  • 政府统计部门公布的年鉴
  • 各类信息中心、信息咨询机构和专业调查机构提供的数据
  • 各类专业期刊、报纸、书籍等
  • 各种专业性质、学术性质的会议
  • 互联网数据库或图书馆
  • 各类业务资料(系统内部)

引用二手数据一定要注明来源 引用二手数据一定要评估,评估标准

  • 数据是谁收集的:数据发布者的权威性
  • 数据是为什么收集的
  • 数据是怎样收集的
  • 数据是什么时候收集的

直接来源 通过自己的调查或实验直接获得的数据。(一手数据)

调查数据

  1. 通过调查方法而获得数据
  2. 通常是对社会现象而言
  3. 通常取自有限总体

实验数据

  1. 通过实验方法得到的数据
  2. 通常针对自然现象
  3. 也被广泛运用到社会科学中

统计的调查方式

普查

  1. 为特定的目的专门组织的非经常性全面调查
  2. 通常是一次性或周期性的
  3. 规定统一的调查时间
  4. 数据的规范化程度较高
  5. 应用范围比较狭窄

抽样调查

  1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法
  2. 具有经济性、时效性强、适应面广、准备性高等特点

统计报表

  • 按照国家有关法规的规定,自上而下地统一布置,自下而上的主机提供基本统计数据
  • 我国曾经的主要收集方式之一

调查数据

概率抽样和非概率抽样

如何抽选一个好的样本?

  1. 针对研究的问题 2、针对调查费用与估计精度的要求的关系 3、

搜集数据的基本方法 调查设计


抽样的方式

分为概率抽样和非概率抽样

概率抽样

1、定义:遵循随机原则进行的抽样,也称为随机抽样

2、特点:

  • 定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中
  • 单位被抽中的概率是已知的,或是可以计算出来的
  • 样本对总体目标量进行估计时,要考虑到每个样本被抽取的概率

3、(不等)概率抽样与等概率抽样

抽样框:对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。又叫抽样结构或抽样框架。

简单随机抽样(simple random sampling):

定义:从总体N个单位(元素)的抽样框中,随机地、一个一个地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中。

分类:重复抽样(有放回)和不重复抽样(不放回)

优点: 简单、直观

在抽样框时,可直接从中抽取样本

用样本统计量对目标量进行评估比较方便

缺点: 当总体N很大时,不易构造抽样框

抽出的单位很分散,给实施调查增加了难度

没有利用其它辅助信息以提高估计的效率

分层抽样(stratified sammpling)

定义: 将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本

优点:

保证样本的就够中与总体的结构比较相近,从而提高估计的精度

组织实施调查方便

既可以对总体参数进行估计,也可以对各层的目标量进行估计

总结: 层间差距越大越好,层内差距越小越好

整群抽样(cluster sampling)

定义:

将总体中的若干个单位合并为组(群)。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查

优点:

抽样时只需群的抽样框,可简化工作量

调查的地点相对集中,节省调查费用,方便调查的实施

缺点:估计的精度较差

总结: 群间差距越小越好,群内差距越大越好

系统抽样(systematic sampling)

定义: 将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按照事先规定好的规则确定其他的样本单位

先数字1到k之间随机抽取一个数字r作为初始单位,以后一次取r+k,r+2k......等单位

优点 : 操作简便,可提高估计的精度

缺点: 对估计量方差的估计比较困难

多阶段抽样( multi -stage sampling)

定义: 首先抽取群,但并不是调查群内的全部单位,而是再进一步抽样,从选中的群众抽取若干单位(群)进行调查(再抽样..........). 属于分层抽样和整群抽样的有机结合

优点: 保证了样本的相对集中,节约了调查费用

不需要包含所有底阶段抽样单位的抽样框

使用与更广泛的抽样调查


非概率抽样

定义: 抽取样本不是依据随机原则而是根据研究目的对数据的要求,采用某种方式从总体中处处部分单位对其实施调查

特点:

  • 简便异性,节省费用
  • 估计往往是有偏差
  • 不具有推断总体的作用
方便抽样

定义: 调查过程中由调查员依据方便的原则,自行确定入样单位

优点: 容易实施,调查成本低

缺点: 样本单位的确定带有随意性,调查结果不能推断的总体

自愿样本抽样

定义: 被调查者自愿参加的抽样

特点:

与随机性无关,样本时有偏的

结果不能用于推断总体

适于反应某类群体的一般看法

判断抽样

定义: 研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本

分类: 实施时根据不同目的有重点抽样、典型抽样、代表抽样等

特点:

主观性较强,结果好坏取决于调查者的判断、经验或专业程度等

成本较低,容易操作

结果不适于推断总体

滚雪球抽样

定义:

首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查........如同滚雪球

特点:

容易找到那些属于特定群体的被调查者

调查成本也比较低

使用场景; 适于反应某类群体的一般看法

配额抽样

定义:

首先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中使用方便抽样或判断抽样的方式选取样本

特点:

操作简便,可保证总体中的不同类别和单位都能包括在所抽样本中

在配额中,可以按照单一变量控制抽样,也可按照交叉变量控制抽样,交叉变量配额抽样可保证样本你的分布更为均匀

概率抽样和非概率抽样的比较

  1. 是否遵循随机原则
  2. 是否可以根据样本结果推断总体
  3. 非概率抽样的其他特点:操作简便、时效快、成本低;对于抽样中统计学专业技术要求不高;适合探索性研究或预备性研究,调查结果用于发现问题
  4. 概率抽样的其他特点: 调查成本较高;抽样的技术含量更高,需要的统计学专业知识较高;抽烟结果适用于各种推断总体的研究
  5. 实际应用中,两者往往结合使用;

搜集数据的基本方法

自填式

定义: 在没有调查员协助的情况下由被调查者自己填写

  • 邮寄调查
    1. 调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷
    2. 通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点
    3. 问卷或表格的发放方式有邮寄、宣传媒介传送、住啊们场所分发三种
  • 网络调查
    1. 电脑与电话调查相结合完成调查的全过程
    2. 借助专门的软件进行
  • 调查员分发式

优点:

  • 调查组织者对自填式方法的管理容易
  • 调查成本低
  • 有力与被调查者选择方便的时间以及参考记录
  • 较少被调查者回答敏感问题的压力

缺点:

  • 问卷回收率较低
  • 不适合结构复杂的问卷调查
  • 调查周期通常较长
  • 出现问题难以及时修改

面访式:

定义: 现场调查中调查员与被调查者面对面,由调查员提问,被调查者回答这种调查方式

优点:

  1. 调查员可以激励被调查者的参与意识,提高回答率
  2. 可提高调查数据的质量
  3. 问卷可复杂化,使得调查问题的组合更加合理
  4. 可以借助图片等实物丰富调查内容
  5. 可以对数据的搜集所花费的时间进行调节

缺点:

  1. 调查成本较高
  2. 调查过程质量控制有困难
  3. 敏感问题调查容易出错
  • 访问调查
    1. 调查者与被调查者通过面对面地交谈而获得资料
    2. 有标准式访问和非标准式访问: 标准式访问通常按照事先设计好的问卷进行,非标准式的访问事先一般不制作问卷
  • 座谈会
    1. 也称为集体访谈
    2. 将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料
    3. 参加座谈会的人数一般不宜过多,一般为6-10人
    4. 侧重于定性研究
  • 个别深访
    1. 一次只有一名受访者参加、针对特殊问题的调查

电话式 定义: 调查人员通过打电话的方式向被调查者实施调查

优点:

  1. 速度快
  2. 成本低
  3. 有利于调查员的安全
  4. 对于访问过程的控制比较容易

缺点:

  1. 电话访问的时间不能太长
  2. 说服被调查者参与调查较困难
  • 电话调查
  • 电话座谈

观察实验

  • 观察法
    1. 就调查对象的行动和意识,调查人员边观察边记录以手机所需的信息
    2. 调查人员不能强行进入
  • 实验法
    1. 在设定特殊试验场所、特殊状态下,对调查对象进行试验以获得所需的资料
    2. 室内实验法和市场实验法

数据收集的方法选择

数据搜集时,需要考虑以下的问题“

  1. 抽样框中的有关信息(被调查者的地址、电话等)
  2. 目标宗特的特征等(识字率、地域等)
  3. 调查问题的内容(复杂、简单)
  4. 有形辅助物的使用(使用产品)
  5. 实施调查的资源问题(经费预算、人员、调查设备、调查所需的时间等)
  6. 管理与控制
  7. 质量要求

调查设计

定义: 根据预定目的,采用科学的方法,对调查研究所做的周密计划,包括资料的收集、整理和分析全过程的设想和安排

具体包括调查方案的制定和调查问卷的设计

调查方案

定义: 统计调查前制订的实施计划,是全部调查过程的指导性文件

调查方案的内容

  • 调查的目的
    1. 调查要达到的具体目标
    2. 回答为什么要进行调查
    3. 调查之前必须明确
  • 调查对象/调查单位
    1. 调查对象: 调查研究的总体或调查范围
    2. 调查单位: 需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)
    3. 回答 向谁调查
  • 调查项目
    1. 调查的具体内容
    2. 通常表现为表格或问卷
    3. 回答 调查什么
  • 方案设计的其他问题
    • 明确调查所采用的方法
    • 确定调查资料的所属时间和调查工作的期限
    • 调查的组织与实施细则等

调查问卷

定义:

  1. 又称为调查表,调查者根据一定的调查目的和要求,按照一定的理论假设设计出来的,由一系列问题、调查项目、备选答案以及说明所组成的,想被调查者收集资料的一种工具,一般放在调查内容中
  2. 不同的调查问卷在具体的结构措辞、版式等设计上回有所不同,但在结构上一般都由开头部分、甄别部分、主体部和背景部分组成
问卷的基本结构
  • 开头部分
    • 问候语: 说明问卷的目的
    • 填写说明 : 说明问卷的填写规则
    • 问卷编号: 识别问卷、调查者、被调查者和地址等
  • 甄别部分
    • 甄别也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对与被调查事项有直接关系的人,以达到避嫌的目的
    • 可以确定那些人是合格的被调查对象,哪些不是
  • 主题部分
    • 调查问卷你的核心内容
    • 包括所要调查的全部问题,主要由问题和答案构成
  • 背景部分
    • 通常放在问卷的最后,主要是有关被调查的一些背景资料
    • 该部分所包含的各项问题,可使研究者根据背景资料对被调查者进行分类比较分析

总结: 问卷的基本要求

从形式上看,要求版面整齐、美观,便于阅读和作答。同时问卷的长度也不宜太长。

从内容上看,一份好的问卷调查表应该满足以下的要求:

  1. 问题具体、表述清楚、重点突出、整体结构好;
  2. 确保问卷能完成调查任务与目的: 信息充分
  3. 调查问卷应该明确正确的政治方向,把我正确的舆论导向,注意对群众可能造成的影响
  4. 便于编码和统计整理
  5. 使被调查者能够回答,因此要注意以下几点
    • 调查对象要具备相关的信息;
    • 调查对象能够记住;
    • 调查对象能清晰地表述
  6. 使被调查者方便回答
  7. 使被调查者愿意回答
  8. 问卷问题的顺序设计要合理
    • 问题的安排应该具有逻辑性
    • 问题的顺序应该先易后难
    • 能引起被调查的兴趣的问题应该放在前面
    • 开放性的问题放在后面,或者需要思考的问题

实验数据

定义: 实验数据指实验中控制实验对象而搜集到的变量的数据 在实验中,研究人员控制某一情形的所有相关方面,操作少数感兴趣的变量。然后观察实验的结果。

实验组合对照组
  • 实验法的基本逻辑: 有意识的改变某个变量的情况(变量A),然后观察另一个变量的变化情况(B项)。如果B项随着A项的变化而变化,就说明A项对B项有影响
  • 实验组: 随机抽选的实验对象的子集,在这个子集中,每个单位接收某种特别的处理
  • 对照组: 每个单位不接受实验组成员所受的某种特别处理
  • 怎样的实验算是好的实验设计?
    • 具有一个实验组和一个或多个对照组
    • 实验组和对照组所处的环境是相同的
    • 实验对象在哪个组应该随机产生
    • 实验组和对照组的 产生不仅是随机的,而且是匹配的。
      • 匹配: 对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机的分配进实验组和对照组
实验中的若干问题
  1. 人的意愿
    • 人们不愿意自己的行为拘泥于一定的控制条件下
  2. 心理问题
    • 人们对被研究很敏感,这使得他们更注意自我,从而走向极端
  3. 道德问题
    • 道德问题使得对人和动物做的实验复杂化
实验中的统计

实验中的统计的作用:

  1. 确定进行实验所需要的单位个数
  2. 将统计思想融入实验设计中,使得实验设计符合统计分析的标准
  3. 提供尽可能最有效的同时研究几个变量影响的方法
  4. 对实验数据进行分析师,根据研究需要,提供恰当地统计方法

数据的误差

数据误差

抽样误差
  • 定义: 由于抽样的随机性所带来的误差
  • 特点: 所有样本可能的结果与总体真值之间的平均性差异。只存在于概率抽样之中
  • 影响抽样误差的大小的因素
    • 样本量的大小
    • 总体的变异性
非抽样误差

定义: 除抽样误差之外的,由于其他的因素而造成的样本观察结果与总体真值之间的差异 特点:存在于所有的调查之中: 概率抽样、非概率抽样、全面调查等

  • 非抽样误差的分类
    • 抽样框误差:

      定义: 抽样框中的单位与研究总体中的单位没有一一对应所造成的抽样误差

      特点: 调查对象确定后,可以选取不同的资料构成抽样框,这是,抽样设计人员应该选取调查内容最贴切的抽样框

    • 回答误差

      定义: 被调查者在接收调查时给出的回答与真实情况不符

      • 理解误差: 不同的被调查者对调查问题的理解不同,每个人按照自己的理解回答大家的标准不一致所造成的
      • 记忆误差:被调查者在接受调查时,由于记忆数据不准确造成的误差
      • 有意识误差: 调查的问题比较敏感,造成被调查者不愿意回答,或迫于各种原因有必须回答,有可能提供不真实的数据
    • 无回答误差

      定义: 被调查者拒绝接收调查,调查人员得到一份空白大军

      特点:无回答误差有时是随机的,有时是系统性的

      • 随机无回答误差:无回答的产生于调查内容无关时,不会产生有偏差估计--可以通过增大样本量的方式解决
      • 系统性无回答误差: 无回答的产生于调查内容有关时,就可能产生系统性误差---- 比较难以解决
    • 调查员误差

      定义:由于调查员的原因而产生的调查误差

      原因:

      • 调查员的粗心大意
      • 调查员在调查中的诱导回答
    • 测量误差

      定义: 由于测量工具或设备造成的误差

      原因:

      • 视力状况调查的灯光不足
      • 观察技术失误等

误差的控制

  1. 抽样误差可计算和控制
    • 扩大样本量
  2. 非抽样误差的控制
    • 调查员的挑选
    • 调查员的培训
    • 督导员的调查专业水平
    • 调查过程的控制
      • 调查结果进行检验、评估
      • 现场调查人员进行奖惩的制度
统计数据的质量要求
  1. 精度: 最低的抽样误差或随机误差
  2. 准备性: 最小的非抽样误差或偏差
  3. 关联性: 满足用户决策、管理和研究的需要
  4. 及时性: 在最短的时间里取得并公布数据
  5. 一致性: 保持时间序列的可比性
  6. 最低成本: 以最经济的方式取得数据

总结:

  1. 数据的来源: 直接来源和间接来源
  2. 数据的调查方法: 概率抽样和非概率抽样等
  3. 搜集数据的基本方法: 自填式、面访式、电话式、观察与实验
  4. 调查方案的结构与问卷设计
  5. 实验数据中的实验组与对照组
  6. 数据的误差: 抽样误差与非抽样误差以及如何控制
  7. 数据质量的要求: 精度、准确性关联性、及时性、一致性、最低成本

2018-04-30

(0)

本文由 SilenceLee的学习笔记 作者:silencelee 发表,转载请注明来源!

热评文章

发表评论

解决 : *
2 + 17 =