
调查概论
第一章调查导论
1.什么是调查:调查就是使用明确的概念,方
法和程序,以有组织,有条理的方式,从一
个总体的部分或所有单元中收集感兴趣的
指标信息,并将这些信息综合编辑成有用的
简要形式的所有活动。调查是认识客观世界
的一种手段,任何工作都离不开调查,为了
做出正确决策就必须进行市场调查,因此很
多调查公司应运而生。
社会经济调查的任务主动要是应用统计学的调
查,整理和分析方法研究社会经济问题,目
的是科学地反映社会,经济中各种各样的问
题,分析问题形成的原因和影响,研究其发
展和变化的客观规律,为解决问题制定政策
或策略提供依据。简单地说,调查是为决策
服务。
2.调查的步骤与过程:一项调查实际执行的步
骤和过程可以想像成一个生命周期:第一个
阶段是计划和设计,随后是调查前的准备,
然后是调查的实施,最后是调查结果的分析
与报告,调查经验的积累和总结又为新的调
查工作做准备。
调查的的第一个阶段是计划,负责调查计划和设
计的应该是一个由多方面人员组成的小组,
其成员应具有不同专业技术背景。调查设计
是建立在需要调查什么?向谁做调查的基
础之上。一旦确定了调查的目标和内容,应
根据统计调查机构的条件,费用等多个方面
认真考虑是否有必要进行一项新的调查。有
时候,所需要的信息中的一部分或全部可以
从政府部门,研究组织和其他组织的官方文
件中就能获得,这就没有必要组织一次调
查。当确认其他方式的数据资料不能满足信
息需要时,就需要进行调查设计。应根据调
查研究的目的和调查对象的性质,在进行调
查之前,对调查工作总任务的各个方面和全
过程进行通盘考虑和安排,以提出相应的调
查实施方案,制定出合理的工作程序。这里
所说的全过程,是指调查工作所需要经历的
各个阶段和环节,包括调查方法的选择,如
查采用抽样调查,就要进行抽样的设计,还
要确定调查的项目,设计科学的问卷,选择
适当的调查方式和方法等。调查设计还应该
包拓确定资料的整理和分析方法;确定调查
时间和调查工作期限;确定调查的经费预算
以及制定调查的组织计划。在此阶段,计划
就应该周全而详尽。要对各种可选用的技术
与方法的优点与缺点进行比较,做出好的设
计。
3.调查评估贯穿于整个调查过程中。
第二章调查设计
1.调查目标的确定:a。明确信息需求;b。数
据使用者和数据的用途;c。确定调查指标
和调查对象。
2.下面所列的是在抽样调查和全面调查之间做
抉择时,需要考虑的几个重要因素:费用,
时效,总体大小,小区域(范围)的估计,
属性的多寡,调查误差,特殊要求,其他因
素。
3.调查总体即实际调查所覆盖的总体。在抽样
调查中称作被抽样的总体。理想的状态下,
这两个总体应该相一致。
4.一个抽样框应该包括以下部分或全部内容:
识别资料,联系资料,辅助资料。
5.名录框(例如:生命统计登记,商业注册登
记,地址和邮政编码册,电话号码簿)概念
装饰品录框的一个例子是:某天早上9点到
晚上8点之间进入某购物中心停车场的车
辆。一个概念名录框常常是基于调查正在进
行时才存在的总体。
6.抽样框的优良性准则:关联性,准确性,时
效性,费用,抽样框所提供的信息应该使用
标准的概念,定义和方法,并使客户对这些
都能理解。
7.几种有缺陷抽样框及其补救方法:几种典型
的缺陷(不完全涵盖,或称不完全覆盖;过
涵盖,也称为覆盖;重复;空白单位;分类
错误)
8.非抽样误差不仅出现在抽样调查中,也出现
在全面调查中。非抽样误差又可以分为两
类:随机的和非随机的。
9.无回答误差:无回答是指调查时未能从指定
的被调查者处获得有效的回答。无回答有两
种类型:一种是全部无回答,又称单元无回
答,它是指被调查单元没有提供任何信息。
另一种是部分无回答,又称项目无回答,它
是指问卷中某些问题回答的空缺。
第三章数据收集的方法
1.自填式问卷的优点:1。自填式问卷一般通过
邮寄方式进行,通常采用匿名的方法;2。
费用比较低;3。调查区域广泛。
2.自填式问卷调查的缺点:1。回答率通常低于
访员协助式方法;2。当问卷宗中包含许多
有关问卷的调查概念,定义和指南的参考资
料时,通常就不如调查员在场的效果好;3。
自填式方法对被调查者的回答负担较大。
3.派员访问是派调查员与被调查者面对面进行
的一种调查方式。对某些目标总体来说,这
是收集数据惟一可行的方法。例如:有些调查无
法采用自填的方式;有一些大规模调查的调
查对象要求调查员在现场确定被调查对象;
很多被调查对象没有电话或者识字率很低。
4.访问调查的缺点:1。面访调查的费用比较高;
2。调查的时间比较长;3。某些群体的访问
成功率比较低;4。实施质量控制比较困难;
5。对调查人员要求高。
5.电话调查的优点:时效快,费用低,可能访
问到不容易接解到的对象,与邮寄调查相
比,可以及时处理疑难问题,易于控制实施
的质量,电话调查一般采用计算机做辅助工
具。
6.直接观察法是由调查员在现场对被调查者的
情况直接观察,记录以取得有关信息的一种
调查方法。它不是直接向被调查者提出问题
要求回答,而是凭调查人员的直观感觉或是
利用有关器械,如照相机,录像机或其他器
材,记录和考察被调查者的活动和现场事
实,以获得必要的信息。利用卫星图像的遥
感技术也是一种直接观察,一般用于农业调
查。例如估计耕地面积,农作物的种类和种
植面积等。
7.小组座谈法是采用小型座谈会的形式,从调
查对象中挑选一组有代表性的人,在主持人
的组织下,就某个专题进行讨论,从而获得
对有关问题的深入了解。
8.网络调查的优点:成本低,范围广,速度快;
交互性好,能够实现问卷多样化设计;为各
种调查提供了丰富的抽样框;有更好的质量
控制。
9.选择数据收集方法时应考虑的因素:从抽样
框的情况来考虑;从目标总体的特征来考
虑;从调查问题的性质来考虑;从调查的经
费与资源来考虑;从管理的难易程度考虑;
从数据质量要求考虑。
第四章调查问卷设计
问卷设计的原则:1。问卷的有效性:有效性又
称效度或准确性。它是指问卷能准确地反映
客观事物特征或属性的程度。如果某一方法
准确地反映了我们所要了解的现象或概念,
就称该方法是有效的。2。问卷的可靠性:
可靠性又称信度,它是指问卷测量结果的一
致性或稳定性。3。需要与可能的原则。4。
效率原则:在同样完成调查要求的前提下,
问卷设计应保证效率尽可能高。也就是说,
要在获得同样信息的条件下,应选择最简捷
的调查方式,以使问卷的长度和题量达到最
小。
在确定调查目标对调查目标进行陈述以后,还要
继续与数据用户进行咨询与商议。这种商议
对统计调查机构进行的大多数调查是特别
重要的。在清楚地了解了数据用途之后,统
计调查机构才能设计出使用者要求的问卷。
进行问卷的测试也是很重要的。对被询问的问题
做出回答是一个复杂的过程。被调查者道先
必须理解问题,然后搜寻记忆或记录以找出
所需要的信息。在找到信息之后,他们还要
考虑什么是问题的正确答案,以及他们在多
大的程度上披露这一答案。只有在这时候,
他们才会对问题给出回答。这些步骤中的每
一个环节,者可能是产生回答误差的一个来
源。测试还能确定问题的顺序是否影响了对
问题的解释以及指南是否清楚,被调查者对
问卷的印象如何。
焦点座谈是由从所研究总体中选出的若干对象
对所选主题进行的非正式讨论。通过焦点座
谈这种形式,使被调查对象或数据用户以及
调查员有机会把他们的观点纳入问卷数据
过程。
避免引导性问题:引导性问题是指建议或引导被
调查者选择某一特定答案时具有倾向性。换
句话说,问题措辞方法对问题的回答产生了
影响。引导性问题能误导调查回答并影响调
查结果。
敏感性问题的措辞:释疑法,假定法,转移法。
随机化回答方法:对敏感性问题的一种特殊的调
查方法是采用随机化回答方法,这一方法是
由美国统计学家沃纳提出来的。这种方法的
设计原则是建立在不暴露被调查者对问题
的直接回答的基础上。
我们可以把这两个问题分别制作外形相同的两
种卡片,混合在一起。然后由被调查者从中
随机抽取一张,对照卡片上的问题来回答
“是”或“否”。有4种情况:
1.被调查者抽了第一类卡片,本人也同意禁放,
与卡片相一致,应该回答“是”。
2.被调查者也抽了第一类卡片,但本人不同意禁
放,与卡片相不符,则应该回答“否”。
3.被调查者抽了第二类卡片,但本人同意禁放,
与卡片相不符,则应该回答“否”。
4.被调查者抽了第二类卡片,但本人不同意禁
放,与卡片相一致,则应该回答“是”。
问卷的格式:
(一)问题的顺序:在设计问卷时,问题的顺序
也很重要,它应能鼓励被调查者来完成问
卷,并维持他们对问卷的兴趣。这种顺序还
应利于被调查者回忆,并使被调查者觉得自
然。问题应该围绕主题,自然地从一个转到
另一个。
(二)过渡的说明:如果问卷的内容比较多,要
分成好几个部分。那么问卷中第一部分要有
过渡的说明。
(三)对被调查者的提示或说明:无论是自填式
问卷,还是调查人员访问式问卷,有些问题
需要加以提示或说明,这些提示和说明必须
清楚,简短和醒目。
(四)格式的考虑:问题和提示使用不同的字体
和排板格式可以让被调查者更容易弄清问
题。标题通常要使用比问题和选项大一点的
字体。
应该对问卷中的问题顺序进行编号。还必须考虑
与卷面有关的其他方面。如果需要也可以用
图表来增加问卷的活泼性,如可用图表表示
问卷各部分的主题,但应该考虑到有利于问
卷的完成,而不应该影响问卷的完成。
关于态度的度量方法:要对这种有关态度问题的
精确度量是比较困难的,通常只能采取才分
或评定等级进行排序的方法。
李克特度量方法:又称加总打分的度量方法,这
种度量方法在问卷设计中应用十分广泛。它
是由一组反映态度的问题组成,根据被调查
者态度反映的不同程度给定分数。
项目间比较量表:项目间比较量表通常采用固定
和方法,这种方法是对两个或两个以上的项
目给出一个总分,要求被调查者在各项目之
间进行划分。这个总分通常是100分,对于
计算比例比较方便。
第五章抽样方法
1.样本的抽选概率与抽样比:样本的抽选概率
有两重含义。一个是指在一定的抽样方式下
有多少不同的样本可以抽取,某个具体样本
被抽中的概率。另一个含义是指某个总体单
元被选入样本的概率。抽样比是指样本的容
量n与总体的容量N之间的比率。
2.抽样效率与设计效果:由于抽样调查中最基
本的抽样方式是简单随机抽样,它的计算方
差和必要的样本容量都比较简单成熟。所以
在探讨基人他各种设计方案时,通常要和简
单随机抽样方式进行比较。美国统计学家
Kish提出了一个设计效果的指标,用英文
字头简写为Deff,它是把设计方案的抽样方
差与简单随机抽样的抽样方差进行比较。若
设计方案的抽样方差2
D
表示,简单随机抽
样的抽样方差用2
srs
,则Deff=2
D
/2
srs
。Deff
小于1时,表示设计方案的效率高于简单随
机抽样;反之,Deff大于1时表示设计方案
的效率低于简单随机抽样。设计效果指标除
用来评估比较复杂的抽样方案的效率外,还
可以利用它来计算复杂抽样方案的样本量
等,因此是一个很有用的指标。
3.非概率抽样的优点:1。快速简便。2。费用
相对较低。3。不需要任何抽样框。4。非概
率抽样对探索性研究和调查的设计开发很
有用。
4.配额抽样:这是最常见的一种非概率抽样,
抽样是要从各个子总体中选取特定数量的
样本单元,这种特定数量的比例关系就称作
配额。故配额抽样本质上是一种满足每个特
定子总体样本量的一种手段。
5.滚雪球抽样:如果我们想找到在总体中某种
较为稀少的个体,而且我们已经知道其中某
些个体并有可能与其接触,那么就有可能通
过询问这些个体,获得与他们类似的个体。
这样所得的样本就像一个从小山上滚下来
的雪球那样逐渐增大。
6.如果N不能被n速除,则可以使用圆形系统
抽样法来避免出现可能样本量不一致的情
况。我们把总体单元假想排列在一个圆上,
并采用模余数法。
7.PPS抽样的涵义:用英语单词的第一个字母
表示,简称PPS抽样。如果抽样单元大小
的辅助信息是已知的,这样的信息就可以用
在抽样中,以提高统计效率。如查大小度量
是准确的,而且所研究的变量与单元的大小
相关,PPS抽样就能极大的提高精度。
8.PPS抽样的方法:如何抽取一个PPS样本呢?
有三种主要方法,它们是随机法,系统法和
随机系统法。
9.由若干个有联系的基本单元所组成的集合称
为群。抽样时以群为抽样单元的抽样方法就
称为整群抽样。
整群抽样包括两步过程。首先将总体划分为群,
然后抽选群的样本,再调查样本群中的所有
单元。
10.分层抽样的优点:(1)分层抽样能提高对总
体估计值的精度,从而使抽样效率更高;(2)
能保证样本对被定义为层的那些子总体的
代表性,从而得到有效的域估计;(3)操作
与管理方便;(4)能避免得到一个“差的”
样本;(5)在不同的层中可以使用不同的抽
样框和不同的抽样方法(例如,在一个层中
用简单随机抽样,在另一个层中采用PPS
抽样)。
缺点:(1)要求抽样框中的所有单元,而不仅仅
是抽入样本的那引起单元都必须有高质量
的,能用于分层的辅助变量;(2)由于需要
辅助信息,对抽样框的要求更高,较简单随
机抽样和系统抽样需要更多的费用;(3)如
果调查变量与分层变量不相关,抽样效率可
能比简单随机抽样还低;(4)估计值的计算
比简单随机抽样和系统抽样稍为复杂。
第六章抽样估计
1.抽样分布:估计量是一个随机变量,它的具
体估计值是随着不同的样本单元而变化的,
因而就有一定的分布,这个分布就叫做抽样
分布。
2.设计权数其实就是样本单元的入样概率的倒
数,通常假定每个单元的入样概率是已知
的,这样我闪才能对总体进行估计。对于概
率抽样来说,每个单元都有一个已知的入样
概率。假如入样概率为1/50,那么每个入选
样本代表总体中的50个单元,此时设计权
数即为50。
3.等概率抽样加权:如果所有样本单元的设计
权数都相同,那么称这样的抽样设计为自加
权设计,这种情况发生在当每个单元都有相
同的入样概率的时候,对于自加权的抽样设
计,如果没有随后的权数调整(例如:出于
处理无回答或使用辅助变量的需要),那么
在计算诸如总值,均值等估计量时可以将其
忽略。
那么,那些设计是自加权的呢?简单随机抽样是
一种自加权设计,这是每个单元都有相等的
入样概率。同样道理,系统抽样也是一种自
加权设计。对于分层抽样,如果按各层的大
小等比例分配样本,而且每层内都采用简单
随机抽样,那么它也是自加权设计。也就是
说,如果各层的抽样比相同,总体中每个单
元就具有相同的入样概率,这样的分层抽样
设计就是自加权设计。我们称分层抽样的这
种样本分配方法为与各层大小N成比例的
分配。
4.无回答调整因子是原样本单元的权数之和与
给出回答的单元的权数之和的比值。
5.使用辅助信息主要有两个原因。首先,为使
调查估计值与已知的总体总值,或者从另一
调查所得的估计值相匹配,这是非常重要
的。例如,许多社会调查使用最新的人口普
查数据来调整估计值,以确保这些估计值
(如年龄,性别分布等)的一致性。辅助信
息也可以从行政数据中获得,或从另一个被
认为更加可靠的调查中获得,这些调查或者
具有较大的样本量,或者其调查结果被认为
更有权威性。使用辅助变量的第二个原因是
为了提高估计值的精度。前面讲过抽样方差
是度量抽样误码率差的一个指标,估计值的
抽样方差越小,精度就越高。在计划一项调
查时,评估用于提高精度的所有外部信息是
非常重要的,将辅助信息与抽样设计相结
合,是提高估计精度的一个重要途径。
6.事后分层:如果可能从其他方面获得分层信
息,或者抽选样本后可能得到更新,更可靠
的分层信息,那么在数据收集后,可以利用
数据收集的结果,选用其中合适的变理对收
集到的样本进行分层,从而对样本的权数进
行调整,这就是通常所说的事后分层。
7.抽样方差的大小取决于以下一些因素:样本
量与总体的大小;在总体中所研究指标的变
异程度;抽样设计;使用的估计量;调查的
无回答情况。如果其他因素不变,抽样方差
的大小一般随样本量的增大而减小。然而为
获得给定的方差,所需的样本量并不随总体
大小的增大而等比例增加。实际上,在确定
给定抽样方差所需的样本量时,对中等规模
的总体来说,总体大小仅起有限的影响;而
对大的总体则几科没有影响。
第七章样本量的确定
1.首先,是调查估计值要求达到的精度。如果
估计量的抽样误差愈小,估计值则愈精确。
因此,随着抽样方差的不断减小,估计值的
精度就会逐渐提高,而估计值的精度越高,
所需的样本量相应也就越大。
2.精度是用调查估计值的抽样方差或抽样误差
来表示的,抽样方差或抽样误差越小,精度
越高。调查估计的精度与样本量是密切相关
的,随着样本量的增加,调查估计值的精度
也会不断提高。换句话说,对应估计量的抽
样方差就会不断减小。所以,样本量取决于
调查估计值所要求的精度。
3.影响精度的因素:总体指标的变异程度;总
体大小;样本设计和所用的估计量;回答率。
4.对于只取两个值的指标,即二元变量,则当
这两个值在总体中以50%和50%的比例出
现时,总体指标的变异程度最大。
为确保达到调查要求的精度,在计算样本量时,
建议对某一指标的总体变异程度采用较为
保守的估计。换句话说,在实际中如果事先
不知道调查中要测量指标变异程度的数据,
那么最好的办法是假定研究指标具有最大
的变异程度。例如对于二元变量,应该假定
总体中该变量的变异程度为50%和50%对
半平分,即假定P=0.5。
5.总体大小:在样本量确定过程中,人们常常
以为总体越大,应抽的样本就应该大,其实
总体所起的作用因它的大小而有所差异。对
于小规模总体,它起着重要作用:对于中等
规模的总体,其作用也是中等,而大总体的
作用很小。由此可知,为满足要求的精度水
平,随着总体大小的增加,样本量增加的比
率逐渐减小到零。
第八章数据收集的实施
1.公关工作包括一些大型调查的宣传活动,也
包括在小规模调查使用的致被调查者的信,
调查手册和一般机构介绍等各种宣传资料。
为使被调查者了解调查的意义并能够和调
查人员积极合作,一项调查应当开展群众性
的宣传活动。
2.调查前的准备:编写手册,职员和调查人员
的招聘和培训,编制名录和录踪。
3.访员手册是访员(调查人员)主要的工作指
南,调查人员根据访员手册开展工作。访员
手册通常包括以下内容:一般信息,简介,
问卷说明,问卷的审卷与整理,单个样本单
元的管理,作业管理,问题与答案。
4.寻踪:在访问调查中也可能出现被调查者地
址不说细等情况,尤其抽样框已经老化,在
正式调查之前更应对样本单元进行寻踪。
5.你为什么挑选我?调查人员应该对随机抽样
的方法进行说明,让被调查者明白他是被随
机抽取的,他实际上代表了总体中的个体,
所以他的回答对于整个调查是非常重要的。
6.严格按问卷的措辞提问:研究表明,如果调
查员没有完全准确地按问卷措辞去提问,那
么很细微的措辞变化都可能会使被调查者
的回答发生改变,可能会歪曲设计的原意而
造成偏差。因此在实施调查中,调查员必须
严格按照问卷的要求来提问,绝对不能按自
己的理解来修改问卷中问题的提法。
7.常用的追问方法有以下几种:重复提问;重
复被调查者的回答或用中性的语言追问;启
发性地帮助被调查者回忆;利用适当的停顿
或沉默;鼓励被调查者使他们放心回答。
8.当调查涉及到机密信息时,调查员不应该要
求被调查者当着其他人回答。如果被调查者
有客人在场。调查人员应该与被调查另约时
间再访问,或者另选私人场所进行访问。寄
宿者,租宿者和未成年的孩子,可能会要求
避开其他家庭成员单独接受访问。
9.最后一点也应该值得注意的是调查人员要保
护自己的人身权利。如果受到辱骂,口头恐
吓,身体骚扰或暴力等威胁,调查人员应该
立即撤退并向督导和有关领导报告。
10.数据质量的监控方法如下:1。严格管理调
查人员;2。检查(或现场检查)已完成的
问卷;3。严格的文档控制;4。对调查员的
询问。
11.质量目标的确定主要根据回答率,回答率的
主要公式如下:
回答率=
未解决的单元数在范围内已解决单元数
回答单元的数量
第九章数据处理
编码是给问题的每项答案赋予一个数值代码,以
便于数据录入和作进一步处理的过程。编码
方案的制定目标。应该是能将调查中所得到
的各种回答分成若干有意义且有本质差别
的类型。
双机录入。双机录入是指将同一份问卷上的内容
在计算机中录入两次,两次使用不同的录入
员。
审核的目标是:1。更好的理解数据和数据处理
过程;2。检查问卷;3。回访被调查者;4。
检出填错的或漏填的数据;5。删除无效记
录;6。分离需要插补的记录。
收集数据时所做的审核经常称为现场审核。现场
审核一般包括有效性审核和一些简单的一
致性审核。现场审核的目的是:1。确认是
否需要改善收集数据的工具;2。发现明显
的错误;3。发现缺失信息;4。“净化”被
调查者的回答;5。确定是否需要进一步培
训。
为了避免花过多的时间和经费审核那些对最后
的估计并无太大影响的数据,建议进行选择
性审核。选择性审核基于这样一种思想,即:
只有那些审核中发现的“关键”总是而不是
所有的问题,才需要采取相应的处理措施。
选择性审核一般适合于定量数据。
选择性检查的优点有:1。节省费用且不降低数
据质量;2。把重点放在影响较大的记录上,
从而提高数据质量;3。缩短处理时间,加
快进度,从而提高时效性;4。减少回访比
例,减轻被调查者答题负担(这对小单位特
别重要,因为他们对回访特别敏感)。
选择性审核的缺点:1。从个体单位的水平看,
对数据质量重视较少;2。对于较小的估计
域,与对问卷全部审核时相比,非抽样误差
可能会增大;3。可能会有来自数据处理人
员和数据用户方面的阴力,数据用户可能认
为数据缺乏可信度;4。数据中可能存在不
一致性,从而给数据用户造成数据质量不佳
的印象。
插补就是解决在审核过程中辨别出来的数据缺
失,无效与不一致等问题的过程。插补要改
变一些回答,并对审核过程中发现的所有有
缺失信息的记录进行补充或替代,确保得出
内在一致的记录。有些问题通过与被调查者
联系或者通过研究问卷可以得到解决。
均值插补(计算题):所谓均值插补就是对缺失或
不一致的值用插补类的均值来替代。
虽然均值插补可能会得到较好的点估计,但由于
在插补类均值这一点形成一个人为的“峰
值”,从而破坏了分布状态和变量之间的关
系。因此,如果用常规的抽样方差公式进行
计算,就会低估最终的方差。
比率或回归插补
公式
热平台插补:是使用同一插补类中的供者记录
(已经通过了所有的审核)的信息来代替一
个相似的受者记录中缺失的或不一致数据
的插补方法。
冷平台插补与热平台插补类似,不同之处在于热
平台插补使用当前调查的供者,而冷平台插
补则使用其他资料中的供者。冷平台插补经
常使用前期的调查或普查中的数据。
进行插补的几条准则:1。插补得到的记录应该
和审核有问题的记录非常相似。2。好的插
补会为评估留下审查的线索。3。插补得到
的记录应该满足所有审核规则。4。插补值
应标明,插补方法和插补所使用的资料也应
该清楚的标明。记录中变量的插补和非插补
的值都应该保留,以便对插补的程度和影响
进行评估。5。仔细选择插补的方法,考虑
每一种插补方法的优缺点以及要插补的数
据类型。6。插补方法应减少无回答偏差,
并尽可能地保持不同变量之间的关系(即不
应破坏数据的多变量结构)。7。插补系统应
事先考虑周全做出规定并编程和调试。8。
插补系统应该能处理各种缺失和不一致的
项目。9。对于供者插补方法,插补得到的
记录应尽可能与选中的供者相似。
评估插补工作,最关心的指标就是对调查估计值
的偏差和产生的插补方差。
离群值被定义为一个观察值或一组观察值,它们
看起来与数据集中的其他观察值不一致。
估计时有三种方法坷以处理离群值,即:改变数
值,调整权数,使用稳健估计。
第十章数据发布与数据分析
调查报告定作的基本要求:1。实事求是。2。要
熟悉调查领域的业务。3。观点和数据要结
合运用。
集中趋势的另一个度量是中位数。中位数是一组
数据按数值大小排序(例如从小到大)后,
位置在最中间的值。对样本数据,中位数是
加权数据的中间值,如果数据个数为偶数,
中位数是最中间两个数值的平均数。中位数
既可用于定量数据,也可用于定序数据。而
且对于有序数据来说,中位数是刻画集中趋
势最好的度量。与均值相比,中位数的主要
优点在于它更少受极端值的影响。例如在一
项收入调查中,不管最高收入是百万富翁还
是亿万富翁,中位数都不会变化,这一点和
均值不同。与均值相比,中位数的缺点是较
难用于推断性数据分析。集中趋势的最后一
个度量是众数。众数是出现频率最高的那个
数值(对样本数据来说,它是出现频率较高
的加权数值)。在集中趋势的三个度量中,
众数的实用范围最广。
如果一个分布是双峰的,则在解释数据的集中趋
势度量时要特别小心,均值和中位数都可能
导致误解。在这种情况下,有两个众数,给
出这两个众数可以很好的地解释数据分布
中存在的两个峰值。在统计分析中,有时还
使用其他统计量。与中位数一样,四分位数
也是一个位置度量,首先需要将(加权)数
据排序(一般是从小到大),但不是像中位
数那样将数据二等分,四分位数是将整个数
据分成四等分,每一部分都包含25%排序
过的数据。
极差又称全距,是数据最大值与最小值之差(对
样本数据来说,是加权最大值与加权最小值
之差),由于这个度量只用到了数据分布中
的两个值,所以它只给出了数据离散趋势的
一个大致的描述,并且很容易受极端值的影
响。
描述性数据分析可以获得有关数据的大致情况。
然而数据收集通常是为了根据样本来对总
体做结论并对结论进行检验。推断性数据分
析就是采取概率抽样所收集的数据来推断
总体的特征。所使用的分析方法有置信区
间,假设检验,方差分析和线性回归等。
线性模型是一种统计方法,它用于研究一个响应
变量(又称因变量)和多个解释变量(又称
自变量)之间的线性关系。线性模型的一个
关键特征是各解释变量的效应是可加的。
时间序列分析,模型通常可以分解为长期趋势,
周期效应,秀节效应和随机波动。
保密和泄密控制:泄密控制指那些为避免数据发
布侵犯被调查者的隐私而采取的措施。例
如,汇总表中带标志的数格可能暴露被调查
者的个人机密。有时候,泄密控制会对数据
的质量产生负面影响,因为有些数据得不到
发表或必须进行修改(通过舍入数据,合并
类别,排除小数格等)。泄密控制是为了确
保被调查者的个人隐私受到尊重,与此同时
最大程度地保持数据的效用。调查中的泄密
主要有两种类型:身份泄密和归属泄密。身
份泄密发生在将某项调查结果与特别的被
调查者(家庭,个人或公司)联系起来的时
候,这是完全可能的。归属泄密是指发布数
据时,提供了关于某个特定子总体或特定组
的信息,这些信息通常不应为人所知。由于
普查(全面调查)的调查结果通常没有或然
性,所以归属泄密经常发生在普查(全面调
查)中。例如在某一地区医生收入的全在调
查中提供了过于狭窄的范围。
保密技术:防止泄密的方法主要有两种:限制(即
减少提供资料的数量和细节);扰乱(即更
改数据)
定义敏感数格的准则:1。切除规则2。(n,k)规
则3。P百分数规则
处理敏感数格的方法:
1。限制法。第一,合并数格;第二,隐藏数格;
2。扰乱法:第一,系统舍入;第二,随机舍入;
第三,有控制的随机舍入;第四,对微型数
据文件的泄密控制法
本文发布于:2023-03-13 13:45:54,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1678686355121834.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:调查.doc
本文 PDF 下载地址:调查.pdf
| 留言与评论(共有 0 条评论) |