2023年12月29日发(作者:vb实训)

统计学教案
第一部分 课程综述
一、课程性质
统计学是一门研究客观现象总体数量特征的方法论科学,具有综合性、应用性和数量性的特征。它系统地介绍了统计理论与方法的历史发展过程及其经典理论、学派、代表人物;较全面地阐述了统计基本理论与基本方法;特别是对二十世纪后期出现的新的统计理论与方法作了重点介绍,以便让学生更好地了解和掌握统计学的发展趋势和发展规律。
二、教学目的
《统计学》是高等院校财经类专业的必修课、核心课之一。为了使学生掌握市场经济条件下,数据资料的搜集加工、分析及预测方法,本课程将从实际应用入手,即在统计理论基础上重点阐述统计工作各个阶段、不同实际应用方面的操作方法,力求体现统计学的社会性与科学性相结合的特点。通过本课程的教学,使学生能够在理论联系实际的基础上,比较系统地掌握统计学的基本思想、基本理论、基础知识和基本方法;理解并记忆统计学的有关基本概念和范畴;掌握并能运用统计基本方法和技术进行统计设计、统计调查、统计整理和一定的统计分析,使学生掌握并应用该工具为自己所学专业服务,以提高学生科学研究和实际工作能力。
三、教学内容
1、考虑到财经类各专业未设置《统计学原理》与各专业统计课程,因而《统计学》的内容既包括统计方法,也包括必要的社会经济指标核算知识,使一般的统计理论方法,落实到实际的指标体系的运用上。
2、考虑到财经类各专业都需要加强数量分析能力的培养,因此,不但介绍一般的统计方法,而且还介绍了常用的数理统计方法在社会经济领域中的应用。
3、考虑到《统计学》是一门方法论方面的应用科学,因而在《统计学》中,一方面对于描述统计内容保持一定比例,另一方面也应加强统计分析、统计推断和统计核算方面的内容。
四、教学时数
章节
绪论
统计资料的搜集与整理
统计描述
抽样分布与参数估计
假设检验
方差分析
相关与回归分析
时间数列分析
统计指数
国民经济统计概述
合计
五、教学方法
板书、幻灯片、多媒体、统计调查实践、上机实验等配合使用。
六、面向专业
财经类各专业及其他相关专业。
第二部分 课程教学内容
第一章 绪论
(一)教学目的
通过本章的学习,要求对统计学的内容、研究对象、性质、应用范围及基本方法,尤其是统计学的基本概念有正确的理解和认识。
(二)基本要求
要求首先对统计学这门课程有一个整体上的认识,了解这门课程的产生和发展过程,并进一步掌握其主要内容和基本方法。
(三)教学要点
1、统计一词的涵义、相互关系;
2、统计学的研究对象、及其学科性质;
3、统计的应用与基本方法;
4、统计学的基本概念,主要包括:总体、单位、样本、指标、变量。
(四)教学时数
1
课时数(54)
4
7
7
7
3
3
5
10
7
1
54
课时数(72)
6
9
9
8
5
4
7
10
8
6
72
4——6课时
(五)教学内容
本章共分三节:
第一节 统计与统计学
一、统计的含义
“统计”一词在各种实践活动和科学研究领域中经常出现。然而,不同的人,或在不同的场合,对其理解是有差异的。比较公认的看法是,统计有三种含义,即统计活动、统计数据和统计学。
1.统计活动
统计活动又称统计工作,是指收集、整理和分析统计数据,并探索数据的内在数量规律性的活动过程。
2.统计资料
统计资料或称统计数据,即统计活动过程所获得的各种数字资料和其他资料的总称。表现为各种反映社会经济现象数量特征的原始记录、统计台帐、统计表、统计图、统计分析报告、政府统计公报、统计年鉴等各种数字和文字资料。
3.统计学
统计学是指阐述统计工作基本理论和基本方法的科学,是对统计工作实践的理论概括和经验总结。它以现象总体的数量方面为研究对象,阐明统计设计、统计调查、统计整理和统计分析的理论与方法,是一门方法论科学。
统计工作、统计资料和统计学之间有着密切联系。统计工作同统计资料之间是过程同成果之间的关系,统计资料是统计工作的直接成果。就统计工作和统计学的关系来说,统计工作属于实践的范畴,统计学属于理论的范畴,统计学是统计工作实践的理论概括和科学总结,它来源于统计实践,又高于统计实践,反过来又指导统计实践,统计工作的现代化同统计科学研究的支持是分不开的。
统计工作、统计资料和统计学相互依存、相互联系,共同构成了一个完整的整体,这就是我们所说的统计。
二 、统计学的研究对象、特点
社会经济统计学的研究对象,是社会经济现象的总体的数量方面,即社会经济现象总体的数量特征和数量关系。
社会经济统计是对社会经济现象的一种调查分析活动,它具有以下特点。
(一)数量性
统计的研究对象是客观现象数量方面,包括数量的多少,数量之间的关系。质量互变的数量界限。
(二)总体性
统计研究对象是客观总体现象的数量方面。如人口统计是要反映和研究一个国家或一个地区全部人口的综合数量特征,而不是要了解和研究某个人的特征,但是它是从每个人调查开始的。人口统计是这样,其他统计活动也是这样。
(三)变异性
统计研究同类现象总体的数量特征,它的前提则是总体各单位的特征表现存在着差异,而且这种差异并不是由某种固定的原因事先给定的
三、统计学研究的基本环节
(一)统计设计:根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准,同时提出收集、整理和分析数据的方案和工作进度等;
(二)收集数据:收集统计数据的基本方法包括科学实验和统计调查。
如何科学地进行调查是统计学研究的重要内容
(三)整理与分析:统计整理分析的方法可分为描述统计和推断统计两大类。
描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。
推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。
(四)统计资料的积累、开发与应用:统计资料的积累、开发与应用必须将实质性学科的理论与统计方法相结合。
第二节 统计学的种类极其性质
统计方法已广泛应用于自然科学和社会科学的众多领域,统计学也发展成为由若干分支组成的学科体系。由于出于不同的视角或不同的研究重点,人们常对统计学科体系作出不同的分类。一般而言,有两种基本的分类:从方法的功能来看,统计学可以分成描述统计学和推断统计学;从方法研究的重点来看,统计学可分为理论统计学和应用统计学。
一、描述统计学和推断统计学
描述统计学(Descriptive Statistics)研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。描述统计学的内容包括统计数据的搜集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
推断统计学(Inferential Statistics)研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。
描述统计学与推断统计学的划分,还反映了统计方法发展的前后两个阶段和使用统计方法探索客观事物数量规律性的不同过程。统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),那么运用描述统
2
计就可以达到认识总体数量规律性的目的;如果获得的只是研究总体的一部分数据(样本数据),那么要找到总体的数量规律性,就要运用概率论的理论并根据样本信息,对总体进行科学的推断。显然,描述统计和推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。而且,推断统计在现代统计学中的地位和作用越来越重要,已成为统计学的核心内容,这是因为在对现实问题的研究中,所获得的数据主要是样本数据。但这并不等于说描述统计不重要。如果没有描述统计搜集可靠的统计数据并提供有效的样本信息,再科学的统计推断方法也难以得出切合实际的结论。从描述统计学发展到推断统计学,既反映了统计学发展的巨大成就,也是统计学发展成熟的重要标志。
二、理论统计学和应用统计学
理论统计学(Theoretical Statistics)即数理统计学(Mathematical Statistics)主要探讨统计学的数学原理和统计公式的来源。由于现代统计学几乎用到了所有方面的数学知识,从事统计理论和方法研究的人员需要有坚实的数学基础。而且,由于概率论是统计推断的数学和理论基础,所以广义的统计学亦应包括概率论在内。理论统计学是统计方法的理论基础,没有理论统计学的发展,统计学也不可能发展成为像今天这样一个完善的科学知识体系。理论统计学包括的主要内容有:概率理论、抽样理论、实验设计、估计理论、假设检验理论、决策理论、非参数统计、序列分析、随机过程等。
应用统计学(Applied Statistics)探讨如何运用统计方法去解决实际问题。其实,将理论统计学的原理应用于各个学科领域,就形成了各种各样的应用统计学。例如,统计方法在生物学中的应用形成了生物统计学,在医学中的应用形成了医疗卫生统计学,在农业试验、育种等方面的应用形成了农业统计学。统计方法在经济和社会科学领域的应用也形成了若干分支学科。例如,统计方法在经济领域的应用形成了经济统计学及其若干分支,在管理领域的应用形成了管理统计学,在社会学研究和社会管理中的应用形成了社会统计学,在人口学中的应用形成了人口统计学,等等。应用统计学除了包括各领域通用的方法,如参数估计、假设检验、方差分析等之外,还包括某领域所特有的方法,如经济统计学中的指数法、现代管理决策法等。应用统计学着重阐明这些方法的统计思想和具体应用,而不是统计方法数学原理的推导和证明。
三、统计学和有关学科的联系与区别
(一)统计学与数学
统计学与数学有着密切的联系,又有本质的区别。现代统计学用到很多数学知识,研究理论统计学的人需要较深的数学功底,使用统计方法的人要具有良好的数学基础。这可能给人造成一种错觉,似乎统计学是数学的一个分支,这种理解是不妥当的。实际上,数学只是为统计理论和统计方法的发展提供了数学基础,而统计学的主要特征是研究数据;另一方面,统计方法与数学方法一样,并不能独立地直接研究和探索客观现象的规律,而是给各学科提供了一种研究和探索客观规律的数量方法。统计学与数学又有着本质的区别。首先,虽然表面上看统计学与数学都是研究数量规律,跟数字打交道的,但是,数学研究的是抽象的数量规律,而统计学研究的则是具体、实际现象的数量规律;数学研究的是没有量纲或单位的抽象的数,而统计学研究的则是有具体实物或计量单位的数据。其次,统计学与数学在研究中所使用的逻辑方法也是不同的,即数学研究所使用的是纯粹的演绎,而统计学则是演绎与归纳相结合,占主导地位的是归纳。数学家可以坐在屋里,凭借聪明的大脑从假设命题出发推导出结果,而统计学家则需要深入实际搜集数据,并与具体实际问题相结合,经过科学的归纳才能得出有益的结论。
(二)统计学与其他学科的关系
统计学是一门应用性很强的学科。几乎所有的学科都要研究和分析数据,因而统计学与这些学科领域都有着或多或少的联系。这种联系表现为,统计方法可以帮助其他学科探索学科内在的数量规律性,但若要对这种数量规律性作出内在必然联系的解释并从中把握该学科研究实体的实际规律,那就要由该学科的具体研究来完成了。例如,大量观察法已经发现了新生婴儿的性别比是107:100,但为什么是这样的比例?形成这一比例的原因应由人类遗传学或医学来研究和解释,而非统计方法所能解决的。再如,利用统计方法对吸烟和不吸烟者患肺癌的数据进行分析,得出吸烟是导致肺癌的原因之一的结论,但为什么吸烟能导致肺癌?这就需要医学去解释了。由此我们可以看出统计学能做什么和不能做什么。可以这样说,统计方法仅仅是一种有用的定量分析工具,它不是万能的,不能解决你想要解决的所有问题。能否用统计方法解决各学科的具体问题,首先要看使用统计工具的人能否正确选择统计方法;其次还要在定量分析的同时进行必要的定性分析,也就是要在使用统计方法进行定量分析的基础上,应用该学科的专业知识对统计分析的结果作出合乎规律的解释和分析,这样才能得出令人满意的结论。尽管各学科所需要的统计知识不同,所使用的统计方法的复杂程度各异,统计学也不能解决各学科的所有问题,但统计方法在各学科的研究中将会发挥越来越重要的作用。
1.统计学与哲学的关系:哲学是统计学的方法论基础。存在决定意识,质量互变原理。
2.统计学与经济学的关系:经济学是统计学的基础。
3.统计学与数学的关系:统计学中要运用大量的数学方法。
4.统计学与数理统计学的关系:一方面,统计学的产生先于数理统计学,从一定意义上说,它是数理统计学的基础; 另一方面,统计学的研究中要运用大量的数理统计方法。
5.统计学与计量经济学的关系:计量经济学是经济学与统计学的综合;经济计量方法是经过修正后的社会经济统计方法从这个意上说,统计学是计量经济学的基础。
第三节 统计学的基本概念
一、统计总体和总体单位
(一)统计总体:由客观存在的、在同一性质基础上结合起来的许多个别单位所形成的集合
3
具有大量性、同质性、变异性等特征。
(二 )总体单位:构成统计总体的个体单位称总体单位。总体由总体单位构成,要认识总体必须从总体单位开始。
(三)统计总体与总体单位的相对性:
在一次特定范围、目的的统计研究中,统计总体与总体单位是不容混淆的,二者的含义是确切的,是包含与被包含的关系。但是随着统计研究任务、目的及范围的变化,统计总体和总体单位可以相互转化。
(四)统计总体的种类:
1、有限总体:指所包含的单位数目有限的总体;
2、无限总体:指所包含的单位数目无限的总体
二、样本
1、由总体的部分单位组成的集合称为样本,样本所包含的总体单位数称为样本容量。
2、抽取样本时应注意的问题:
(1) 样本单位必须取自同一总体;
(2) 样本个数与样本容量与抽样方法有关;
(3) 样本须按照随机原则抽取;
(4) 样本推断总体存在误差。
三、标志
(一)标志
1、概念:是总体单位所具有的属性和特征的名称。
2.种类
(1)其性质分可分为品质标志和数量标志。品质标志是表明总体单位的属性特征,一般用文字说明,而不能用数量表示,如性别、文化程度、民族等。数量标志表明总体的数量特征,是用数值表示的,如年龄、工资、工龄等。
(2)其变动情况分为不变标志和可变标志。无论品质标志还是数量标志,当某个标志在各个总体单位上的具体表现相同时,该标志是不变标志。如,以全国国有商业企业为总体,每个企业都具有经济成份和商业企业这两个不变标志。
当某个标志在总体各个单位上的表现不尽相同时,该标志为变动标志,组成一个总体的各个总体单位都具有许多变动标志。例如在全国国有商业企业这个总体中,各企业的经营范围、营业面积、劳动生产率、商品销售额等标志都是不相同的,是变动标志。
(二)标志的表现
1、标志的表现是指标志特征在各单位的具体表现。
2、品质标志的标志表现用文字表述,如“汉族”、“大专”、等。
3、数量标志的标志表现是具体数值,如职工的工龄8年或10年,商品销售额100万元或400万元。
四、 变异和变量
(一)变异
变异是变动的标志,具体表现在各个单位的差异,包括量(数值)的变异和质(性质、属性)的变异。如:性别表现为男、女,这是属性变异;年龄表现为18岁、25岁、28岁等这是数值上的变异。
(二)变量
1.概念
变量就是可变的数量标志。例如,商业企业的职工人数、商品流转额、流动资金占用额等数量标志,这些变动的数量标志就称做变量。
变量值就是变量的具体表现,也就是变动的数量标志的具体表现。例如,企业的职工人数是一个变量,甲企业职工人数100人,乙企业职工人数150人,丙企业职工人数200人等等,100人、150人、200人,都是职工人数这个变量的变量值(标志值)。
2.种类
按变量值的连续性可把变量区分为连续变量和离散变量两种。连续变量的变量值是连接不断的,相邻的两个数值之间可以作无限的分割,一般可以表现为小数。例如,人的身高、体重、年龄等都是连续变量。离散变量的变量值是间断的。例如,职工人数、商业企业数、机器设备台数都只能按整数计算,不可能有小数。
五、统计指标和指标体系
(一)统计指标的概念
统计指标是反映总体数量特征的概念和数值。例如,我国2001年国内生产总值95933亿元,它是根据一定的统计方法对总体各单位的标志表现进行登记、核算、汇总而成的统计指标,说明我国国民经济这个数量特征。这个数量指标的名称是“国内生产总值”,指标的数值是“95933亿元”
(二)特点
1.数量性
2.综合性
3.具体性
(三)统计指标与统计标志联系与区别
1、区别:一是指标说明总体的数量特征,而标志说明总体单位特征;二是指标都可以用数量表示,而标志有不能用数量表示的品质标志。
2、联系:一是许多统计指标的数值是由总体单位的数量标志汇总得到的;二是指标和指标之间存在变化关系。
(四)统计指标的种类
1.统计指标按它所说明的总体现象内容的特征,可以分为数量指标和质量指标。
(1)数量指标是反映总体某一特征的绝对数量。这类指标主要说明总体的规模、工作总量和水平,一般用绝对数表示。例如,某一地区的总人口、工业企业总数、国民生产总值等等。
4
(2)质量指标是反映总体的强度、密度、效果、结构、工作质量等,例如,人口密度、劳动生产率、资金利润率等。这类指标一般用平均数、相对数表示。这些质量指标的数值并不随总体范围的大小而增减。例如一个100 万人口的城市第三产业在国民生产总值所占的比重也可能小于某个30万人口的城市第三产业在国民生产总值中所占的比重。
2.统计指标按其具体内容和作用,可以分为总量指标、相对指标和平均指标。
(1)总量指标是反映总体现象规模的统计指标,它表明总体现象发展的结果。例如上述的总人口、国民生产总值等便是。
(2)相对指标是两个有联系的总量指标和平均指标相比较的结果,又分两种情况:同一指标不同时期的数值对比可以说明事物的发展变化,如人口增长率、成本降低率;用总体中部分数值与总体数值相比说明事物的内部结构,如三次产业在国民生产总值中所占比重。
(3)平均指标是按某个数量标志说明总体单位一般水平的统计指标,如平均工资、平均成本等等。
(五)指标体系
1.指数体系的概念和意义
(1)概念:统计指标体系是指若干个相互联系的统计指标组成的,一个整体社会经济现象本身的联系也是多种多样的。例如,在商品流转统计中,商品购进、商品销售和商品库存是相互联系和相互制约的统计指标,由这些统计指标组成的一个整体就是商品流转统计指标体系。
(2)意义:可以深刻认识事物的全貌和发展过程;利用统计指标体系,可以查明产生各种结果的主要因素,了解指标之间的相互联系,可以根据已知指标来计算和推测未知指标。
2.指标体系种类
统计指标体系大体上可分为两大类,即基本统计指标体系和专题统计指标体系。
基本统计指标体系是反映国民经济和社会发展及其各个组成部分的基本情况的指标体系。
专题统计指标体系是对某一个经济问题或社会问题制定的统计指标体系。例如,商品流转统计指标体系、经济效益统计指标体系、人民物质文化生活水平统计指标体系等等。
六、统计数据
(一)统计数据的计量尺度
1、定类尺度:按现象性质差异进行的辨别与区分。测量结果形成定类变量或定类指标。定类变量或指标确切的值是以文字表述的,可以用数值标识,但仅起标签作用。定类变量或指标的各类别间是平等的,没有高低、大小、优劣之分。
2、定序尺度:按现象顺序差异进行的辨别与区分。测量结果形成定序变量或定序指标。
定序变量或指标确切的值是以文字表述的,也可以用数值标识,但仅起标签作用。定序变量或指标各类别间有高低优劣之分,不能随意排列。
3、定距尺度:按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或定距指标。定距变量或指标的值以数字表述,有计量单位,可以进行加减运算。定距变量或指标各类别间自然有大小之分,但没有绝对的零点,不能进行乘除计算。
4、定比尺度:按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或定比指标。定比变量或指标确切的值也以数字表述,有计量单位 ,可以进行加减运算。定比变量或指标有绝对意义上的零点,既可以加减运算,也可以乘除运算。
(二)数据的类型:
1、根据对客观现象观察的角度不同,统计数据分为:静态数据和动态数据。
2、根据变量值连续出现与否,变量分为:连续变量和离散变量。
3、根据变量的取值确定与否,变量分为确定性变量和随机变量。
(三)数据的表现形式:
1、绝对数:反映被研究对象在一定时期或时点的规模、水平或性质相同总体规模的数量差异。一般用绝对数表示,又称绝对数指标。
按反映的时间状况划分为时期指标和时点指标。
时期指标:反映社会经济现象在一定时期内发展变化过程总量的指标,如:商品销售额、总产值、基本建设投资额等。
时点指标:反映社会经济现象在一定时点上状况的数量的指标,如:人口数、房屋的居住面积,企业数等。
时期指标和时点指标的特点(区别):
a.性质相同的时期指标的数值可以相加,时点指标相加则无意义。
b.同类时期指标数值的大小与时期长短有直接关系,时点指标则没有这种关系。
c.时期指标数值是经常登记取得, 时点指标不是。区分时期指标和时点指标决定了统计处理与应用上的不同,在运用时期和时点指标时,注意同一指标若从不同的角度考虑则总量指标的性质也不同,如:年末人口数和年初人口数是时点指标,但年末人口数一年初人口数=人口净增数则为时期指标。
2、相对数:两个有联系的指标数值之比,反映现象之间所固有的数量对比关系。常用的相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数。
3、平均数:反映现象总体的一般水平或分布的集中趋势。
本章的重点
1、统计学的基本概念;
2、统计学科的研究对象和研究方法;
3、统计学的学科性质。
本章的难点
统计学各基本概念之间的联系与区别
5
复习思考题
1、统计的涵义及其他们之间的关系。
2、简述统计的产生和发展过程。
3、统计学的研究对象是什么?研究对象有哪些特点?
4、怎样理解统计总体的同质性和变异性?
5、为什么说没有变异就没有统计研究的必要?
6、简述统计学与数学的联系与区别。
7、简述总体、单位、样本的含义及其相互关系。
第二章 统计资料的搜集与整理
(一)教学目的
通过本章的学习,了解统计数据搜集与整理的基本理论与方法,掌握各种方法的特性。
(二)基本要求
要求灵活运用各种数据搜集的方式方法,并对所得数据进行加工整理,为以后各章学习统计分析方法打下基础。
(三)教学要点
1、数据采集的方式方法;
2、统计调查方案的设计;
3、统计分组;
4、变量数列的编制;
5、统计数据的显示。
(四)教学时数
7——9课时
(五)教学内容
本章共分四节:
第一节 统计资料的搜集
一、统计资料搜集概述:
(一)统计数据搜集的概念:
1、概念:统计数据搜集是指根据统计研究预定的目的和任务,运用科学的调查方法与手段,有计划、有组织地从客观实际采集数据的过程。
2、方式:
(1)
(2)
直接向调查对象搜集反映调查单位的统计资料(一般称为原始资料);
根据研究目的,搜集已经加工、整理过的,说明总体现象的资料(一般称为二手资料)。
(二)统计资料搜集的方案设计:
统计调查的工作量大,内容繁杂,研究目的和任务又客观要求调查资料的准确性、全面性和及时性,为了做好本阶段的工作,在调查工作开始之前,必须制定出一个周密的调查方案,对整个阶段的工作进行统筹考虑、合理安排,保证统计调查工作的效率和质量。
一个完整的统计调查方案应包括的主要内容:
1、确定调查目的
统计调查是为一定的统计研究任务服务的,在制定调查方案时,首先要确定调查目的,即调查中要研究解决的问题和要取得的资料。例如,2000年11月1日零时举行的全国第五次人口普查的调查方案中,明确规定这次调查的目的就在于:为了准确的查清第四次全国人口普查以来我国人口在数量、地区分布、结构和素质方面的变化,为科学的制定国民经济和社会发展战略规划,统筹安排人民的物质和文化生活,检查人口政策执行情况,提供可靠的资料。可见,在这一调查方案中,调查目的是具体和明确的。
2、确定调查对象和调查单位
统计调查的目的确定以后,就可以进一步确定调查对象和调查单位。确定调查对象和调查单位,就是为了回答向谁调查、由谁来具体提供资料的问题。
(1)调查对象:就是根据调查目的所确定的统计总体。例如,人口普查的对象就是全国的人口总体。
(2)调查单位是进行调查登记的标志值的承担者。如我国进行的第五次人口普查,全国的人口总体(具有中国国籍,并在中国国境内常住的自然人)就是调查对象,每一个人就是调查单位。
明确调查单位,还要同填报单位区别开来。填报单位是填写调查内容、提供资料的单位,它可以是一定的部门或单位,也可以是调查单位本身,这要根据调查对象的特点和调查任务的要求确定。
3、确定调查项目
调查项目就是所要调查的内容,及所要登记的调查单位的特征。调查项目一般就是调查单位各个标志的名称,包括品质标志和数量标志两种。
调查项目确定后,就要将这些调查项目科学的分类排队,并按一定顺序列在表格上,这种供调查使用的表格就叫调查表,
6
4、拟定调查表和问卷设计
(1)调查表:调查项目确定后,就要将这些调查项目科学的分类排队,并按一定顺序列在表格上,这种供调查使用的表格就叫调查表,
调查表一般分为单一表和一览表两种。
单一表(又称卡片式)是将一个调查单位的调查内容填列在一份表格上的调查表。它可以容纳较多的项目,且便于分类整理和汇总审核。
一览表就是把许多个调查单位和相应的项目按次序登记在一张表格里的调查表。它便于合计和核对差错,但一般要在调查项目不多时采用。
问卷调查是一种特殊的调查形式,根据调查目的,在调查对象中随机选择或有意识地确定调查单位,以文字或表格形式了解被调查者的意见,被调查者自愿、自由地回答问卷中所提出的问题。问卷设计的设计应简明扼要。以保证所搜集资料的准确。
5、确定调查时间和调查期限
调查时间是调查资料的所属时间。调查时间可以是时期,也可以是一定的时点。调查期限是进行调查工作所要经历的时间,包括搜集资料和报送资料的工作所需的时间,应尽可能缩短。如第五次全国人口普查,因为人口数量是时点,所以规定的标准调查时点是2000年11月1日零时。
5、制定调查的组织实施计划
调查组织工作包括确定调查机构,组织和培训调查人员,落实调查经费的来源和开支办法,确定调查资料的报送办法和公布调查结果的时间。
(三)实验设计的原则
1、重复性原则;
2、随机化原则;
3、双盲原则。
二、统计数据的搜集方法:
任何一种调查都必须采用一定的调查方法去搜集原始资料,即使调查的组织形式相同,其调查方法也可以是不同的。应根据调查目的与被调查对象的具体特点,选择合适的调查方法。
(一)直接观察法:是指由调查人员到现场对调查对象进行观察点数和计量。
(二)报告法(通讯法):一般是由统计工作机构将调查表格分发或电传给被调查者,被调查者根据填报的要求将填好的调查表格寄回。
查者逐一采访,当面填答。被调查者自填法即调查人员把调查表交给被调查者,向被调查者说明填表的要求和方法,并对有关注意事项加以解释,由被调查者按实际情况一一填写,填好后交调查人员审核收回。
(三)采访法:是根据被调查者的答复来搜集统计资料,这种方法又可分为口头询问法和被调查者自填法两种。口头询问法是由调查人员对被调 (四)登记法:是由有关的组织机构发出通告,规定当事人在某事发生后到该机构进行登记,填写所需登记的材料。
其他的调查方法还有:
1.邮寄调查。邮寄调查是通过邮寄、宣传媒体和专门场所等将调查表或问卷送至被调查者手中,由被调查者填写,然后将调查表寄回或投放到收集点的一种调查方法。这是一种标准化调查,其特点是,调查人员和受调查者没有直接的语言交流,信息的传递完全依赖于调查表。邮寄调查在统计部门进行的统计报表及市场调查机构进行的问卷调查中经常使用。
2.电话调查。电话调查是调查人员利用电话同受访者进行语言交流,从而获得信息的一种调查方法。该方法具有时效快,费用低等特点。随着电话的普及,电话调查也越来越广泛。电话调查可以按照事先设计好的问卷进行,也可以针对某一专门问题进行电话采访。电话调查所提问题要明确,且数量不宜过多。
3.电脑辅助调查。这种调查也叫做电脑辅助电话调查,就是在电话调查时,调查的问卷、答案都由计算机显示,整个调查过程,包括电话拨号、调查记录、数据处理等也都借助于计算机来完成的一种调查方法。目前,电脑辅助调查已在一些发达国家和地区广泛应用,并已开发出了各种电脑辅助电话调查系统。
4.座谈会。座谈会也称为集体访谈法,就是将一组被调查者集中在调查现场,让他们对调查的主题发表意见,从而获取资料的方法。参加座谈会的受访者应是所调查问题的专家或有经验者,人数不宜太多,通常为6-10人,研究人员应对受访者进行严格的甄别、筛选。讨论方式主要看主持人的习惯和爱好。这种方法能获取其他方法无法取得的资料,因为在彼此交流的环境里,受访者相互影响、启发、补充,不断修正自己的观点,这就有利于研究者从中获得较为广泛深入的想法和意见。而且座谈会不会因为问卷过长而遭到拒访。
5.个别深度访问。深度访问是一种一次只要一名受访者参加的特殊的定性研究。“深访”暗示着要不断深入到受访者的思想中,努力发掘其行为的真实动机。深访是一种无结构的个人访问,调查者运用大量的追问技巧,尽可能让受访者自由发挥,表达他的想法和感受。深度访问常用于动机研究,如消费者购买某种产品的动机等,以发掘受访者非表面化的深层意见。这一方法最适用于研究隐私的问题,如个人隐私问题,或敏感问题,如政治性问题。对于那些不同人之间观点差异极大的问题,用小组讨论可能会把问题弄糟,这时也可采用深度访问法。
座谈会和个别深访法属于定性方法,通常围绕一个特定的主题取得有关定性资料。此类方法和定量方法不同。定量方法是从总体中按随机方式抽取样本获得资料,其研究结果或结论可以进行推论。但定性研究着重于问题的性质和对未来趋势的把握,而不是对研究总体数量特征的推断。座谈会和个别深度访问主要用于市场调查和研究。
(五)实验设计调查法:是用于搜集测试某一新产品、新工艺或新方法使用效果的资料的方法。
6、网络调查法等。
三、统计调查的各种形式:
7
(一)按调查的范围划分,可分为:
1、全面调查:对调查对象的所有单位进行调查。
2、非全面调查:对调查对象其中的一部分单位进行调查。
(二)按时间标志可分为:
1、经常性调查:指随着研究现象的变化,连续不断地进行调查登记。
2、一次性调查:是指间隔一段较长的时间才对事物的变化进行一次性调查。
一专题研究而组织的专项调查。
1.普查。普查(Census)是为某一特定目的而专门组织的一次性全面调查方式,如人口普查、工业普查、农业普查等。世界各国一般都定期进行各种普查。普查适用于特定目的、特定对象,旨在搜集有关国情国力的基本统计数据,为国家制定有关政策或措施提供依据。它主要用于搜集处于某一时点状态上的社会经济现象的数量。普查作为一种特殊的调查组织方式有以下几个特点:
(1)普查通常是一次性或周期性的。普查涉及面广,调查单位多,要耗费大量的人力、物力和财力,所以间隔较长时间,如10年才进行一次。我国的人口普查从1953年到1990年共进行过4次。今后,我国的普查将规范化、制度化,每逢末尾为“0”的年份进行人口普查,末尾为“3”的年份进行第三产业普查,末尾为“5”的年份进行工业普查,末尾为“7”的年份进行农业普查,末尾为“1”或“6”的年份进行统计基本单位普查。
(2)普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。我国前四次人口普查的标准时间定为普查年份的7月1日0时,第五次人口普查为2000年11月1日0时。农业普查的标准时间定为普查年份的1月1日0时。标准时间一般定为调查对象比较集中、相对稳定的时期。
(3)普查的数据一般比较准确,规范化程度也高,因此可作为抽样调查和其他调查的依据。
(4)普查的使用范围较窄,只能调查一些最基本或特定的现象。
2.抽样调查。抽样调查(Sampling survey)是按照随机原则从总体中抽取一部分单位构成样本进行观察,并根据样本信息推断总体数量特征的一种非全面调查。这是一种应用最为广泛的调查组织方式。
抽样调查有如下几个特点:第一、样本单位按随机原则抽取;第二、根据部分调查的实际资料对总体的数量特征作出估计;第三、抽样误差可以事先计算并加以控制。
抽样调查的适用范围主要有:第一、对一些不可能或不必要进行全面调查的社会现象,采用抽样调查;第二、对普查资料进行必要的修正。
抽样调查必须遵循以下原则:首先是随机原则,即要使所有调查单位都有同样被抽取的机会;其次是最大抽样效果原则,即在既定的调查费用下使抽样估计误差最小,或者是在给定的精确度下,使调查费用最少。
抽样调查的其他具体内容将在后面设专章讨论。
3.统计报表。统计报表(Statistical report forms)是按照国家有关法规规定,自上而下统一布置,自下而上逐级填报的一种调查组织方式。这种调查组织方式在我国政府统计工作中,经过几十年的改进和完善,已形成了一套比较完备的统计报告制度,它要求以原始数据为基础,按照统一的表式、指标、报送时间和报送程序填报,已成为国家和地方政府部门获取统计数据的主要统计调查组织方式。
统计报表类型多样。统计报表按调查范围可分为全面报表和非全面报表;按报送时间可分为日报、月报、季报和年报等;按报送受体可分为国家、部门、地方统计报表。
4.重点调查。重点调查(Key-point investigation)是指在调查对象中,只从全部总体单位中选择少数重点单位进行的非全面调查。
这些重点单位尽管在全部总体单位中出现的频数极少,但其某一数量标志却在所要研究的数量标志值总量中占有很大的比重。例如,要了解全国的钢铁生产总量,只要对产量很大的少数几个钢铁企业,如鞍钢、宝钢、首钢等进行调查,就可对全国的钢铁生产总量有个大致的认识。这几个产量很大的企业,构成了这次全国钢产量调查的重点单位,因为它们的钢铁产量在全国的钢铁生产总量中占有很大比重。
5.典型调查。典型调查(Model survey)是从全部总体单位中选择一个或几个有代表性的单位进行深入细致调查的一种调查组织方式。典型调查的目的是通过典型单位具体生动、形象的资料来描述或揭示事物的本质或规律,因此所选择的典型单位应能反映所研究问题的本质属性或特征。例如,要研究工业企业的经济效益问题,可以在同行业中选择一个或几个经济效益突出的单位做深入细致的调查,从中找出经济效益好的原因和经验。典型调查主要用于定性研究,调查结果一般不能推断总体。
(三)按组织形式可分为:一定期报表:是按国家统一规定的表式和内容,定期向各级领导机构报送统计资料的一种形式。二专门调查:是为某 四、统计调查体系
面报表综合运用的统计调查方法体系。
我国现阶段使用的统计调查方法体系为:以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和部分全 五、现有统计资料的主要来源:
从统计数据本身的来源看,统计数据最初都是来源于直接的调查或实验。但从使用者的角度看,统计数据主要来源于两种渠道:一是来源于直接的调查和科学实验,对使用者来说,这是统计数据的直接来源,我们称之为第一手或直接的统计数据;二是来源于别人调查或实验的数据,对使用者来说,这是统计数据的间接来源,我们称之为第二手或间接的统计数据。
对大多数使用者来说,亲自去做调查往往是不可能的。所使用的数据大多数是别人调查或科学实验的数据,对使用者来说称为二手数据。
8
这方面的资料,可通过两个途径获得:一是从相关的年鉴、期刊和有关出版物上获取;二是从有关网站搜寻。
(一)统计年鉴
1、《中国统计年鉴》
2、《国际统计年鉴》
3、《地方统计年鉴》
4、《中国县(市)社会经济统计年鉴》
5、《中国金融年鉴》
6、《中国人口统计年鉴》
7、《中国统计摘要》
(二)有关期刊
1、《中国经济数据分析》
2、《经济预测分析》
(三)有关网站
1、中国统计信息网
2、国研网
3、中国经济信息网
4、中国经济时报网
第二节 统计数据整理
一、统计数据整理的内容与程序
(一)统计数据整理的概念及意义
1.概念
统计整理,就是根据统计研究的目的,对所搜集到的资料进行科学的加工,使之系统化,条理化的工作过程。统计整理即包括对统计调查所得到的原始资料进行整理,也包括对加工过的综合资料,即次级资料进行再整理。
2.意义
统计整理在整个统计研究中占有重要的地位。统计整理的正确与否,将直接影响和决定着能否完成整个统计研究的任务。如果采用不科学不完整的整理方法,即使搜集到准确、全面的统计资料,也往往使这些资料失去应用价值,掩盖客观现象的本质,难以得出正确的结论。因此,必须十分重视统计整理工作。
(二)统计数据整理的内容:
1、根据研究目的设计整理汇总方案
2、根据汇总方案,对各个调查项目的资料进行汇总,通过汇总计算各项指标
3、通过统计表或统计图的形式,描述整理的结果
(三)统计数据整理的程序
第一步,设计和制定统计整理方案。
第二步,对原始资料进行审核。
第三步,对经过审核的资料进行分组、并结合汇总,计算出总体总量指标。
第四步,将汇总计算的结果,以统计表或统计图的形式表现出来。
第五步,对统计资料妥善保存,系统积累。
二、统计分组
(一)统计分组的概念
统计分组就是根据统计研究的需要,将统计总体按照一定的标志分为若干个组成部分的一种统计方法。例如,将某一班级的全体同学按照性别划分为男、女两个组;对某市100家大型零售商店按照零售额、职工人数进行分组等。
统计分组具有两个方面的含义:
对总体而言,是“分”,即将同质总体区分为性质有别的不同组成部分;
对总体单位而言,它是“组”,即将性质相同或相近的不同总体单位组合在一起,构成一个组。
例如,要了解我国人口状况,只知道总人口数量是不够的,而应将人口总体按照年龄、性别、民族、城乡、文化程度……等分组,才能进一步地深入地了解我国人口总体的年龄结构、性别比例、民族构成等。
(二)统计分组的作用
1.区分现象的不同类型
2.研究总体的内部结构
3.分析现象间的依存关系
(三)统计分组的原则
1、穷尽原则:就是使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体中所有的单位。
2、互斥原则:就是在特定的分组标志下,总体中的任何单位只能归属于某一组,而不能同时或可能归属于几个组。
(四)统计分组的种类
1、按分组标志的多少,可分为简单分组和复合分组。将社会经济总体只选择一个标志分组称为简单分组。复合分组是用两个或两个以上分组标志重叠起来对总体进行的分组。例如,将人口先按“性别”分成男、女两组,然后在男性和女性两组中分别按照“文化程度”划分为大学生及大学以上、高中、初中、文盲及半文盲如下五组。
2、按分组标志的性质不同,分为品质分组(或称属性分组)和数量分组(或称变量分组)。品质分组就是按品质标志进行分组。一般地,对于以定类尺度或定序尺度计量的,采用品质分组。数量分组就是按数量标志进行分组。
9
3、按分组的作用和任务不同,分为类型分组、结构分组和分析分组。把复杂的现象总体划分为若干个不同性质的部分,就是类型分组。在对总体分组的基础上计算出各组对总体的比重以研究总体各部分的结构,就是结构分组。为研究对象之间的依存关系而进行的统计分组即分析分组。
(五)统计分组体系:分组体系有下列形式:
1.平行分组体系
对同一总体选择两个或两个以上的标志分别进行简单分组,排列起来,即成为平行分组体系。
2.复合分组体系
如果多个复合分组组成的体系就形成了复合分组体系。例如,为了认识我国高等院校在校学生的基本状况,可以同时选择学科、本科或专科、性别三个标志进行复合分组,并得到如下复合分组体系:
(六)统计分组的方法
统计分组的关键问题是正确地选择分组标志与划分各组界限。前者主要是指品质标志分组,后者主要是指数量标志分组。
1.分组标志选择的原则
(1)要选择能够反映事物本质或主要特征的标志
(2)应根据研究的目的与任务选择分组标志
(3)根据现象所处的历史条件的变化选择分组标志
2.统计分组的方法
(1)按品质标志分组
按照品质标志分组就是用来反映事物的属性,性质的标志作为分组标志,就可以将总体单位划分为若干性质不同的组成部分。
例如,人口按性别、文化程度、民族、籍贯等标志分组;企业按经济类型、轻重工业、隶属关系,企业规模等标志分组等。
(2)按数量标志分组
按数量标志分组就是用反映事物数量差异的标志作为分组标志,将总体各单位划分为若干个组。例如,地区经济按国内生产总值分组、企业按销售收入分组等。
A、单项式分组与组距式分组:
单项式分组就是用一个变量值作为一组形成的分组。一般适用于离散型变量且变量变动范围不大的场合。
组距式分组就是将变量依次划分为几段区间,一段区间表现为从“。。。到。。。”距离,把一段区间内的作有变量值归为一组,形成组距式分组。一般对于连续型变量或者变动范围较大的的离散型变量,适宜采用组距式分组。
B、间断组距式分组和连续组距式分组:
组距是上下限之间的距离,相邻两组的界限,称为组限。凡是组限不相连的,称为间断组距式分组。凡是组限相连(或称相重叠)的,即以同一数值作为相邻两组的共同界限,称为连续组距式分组。
统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内,即所谓“上限不在内”原则。
C、等距分组与异距分组:
等距分组就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。异距分组即各组的组距不相等。
(七)组距式分组中相关指标的计算
1、组限
组限为组距式变量数列中,每组区间两端的极值称组限。每一组的两个组限中,较大者叫上限,较小者叫下限,如果各组的组限都齐全,成为闭口组;组限不齐全,即最小组缺下限或最大组缺上限,称为开口组。
2、组距
组距为每组下限与上限之间的距离为组距。即:组距=上限-下限
组距式变量数列,有等距数列和不等距(异距)数列之分
计算公式:d=R/n 其中:d—组距 R—全距 n—组数
开口组的组距是以相邻组的组距为本组的组距。
3、组数:组数就是分组后各组的个数之和。
斯特杰斯经验公式:n=1+3.3logN 其中:n—组数 N—总体单位数
4、组中值:上下限之间的中点数值称为组中值,计算公式入下:
组中值=上限下限2
对于开口组中值的计算方式可以利用如下公式:
邻组组距
2邻组组距无上限组的组中值=下限
2无下限组的组中值=上限
第三节 频数分布
一、频数分布的基本概念
(一)频数分布的概念与种类
1、定义:在统计分组的基础上,总体中的所有单位按其所属的组别归类整理,并且按照一定的顺序排列,形成总体单位数在各组分布的一系列数字,称为分配数列,又称次数分配或次数分布。
10
2、分配数列中,分布在各个组的总体单位数叫次数,又称频数。
3、如果将分组标志序列与各组相对应的频率按照一定的顺序排列,就形成频率分布数列。
4、分配数列有两个组成要求:一是分组;另一个是次数或比率。它可根据分组标志的性质不同,可以分为品质数列与变量数列。
(1)品质数列
它是按品质标志分组的数列,用来观察总体单位中不同属性的单位分布情况。例如,
表2.1 2000年我国人口性别构成情况
人口性别分组
男
女
合计
人口数(万人)
65355
61228
126583
占人口的比重(%)
51.63
48.37
100
(分组名称) (次数) (频数)
品质数列的编制比较简单,但要注意分组时,应包括分组标志的所有表现,不能有遗漏,各种表现相互独立,不得相融。
(2)变量数列
变量数列是将总体按数量标志分组,将分组后形成的各组变量值与该组中所分配的单位次数或频数,按照一定的顺序相对应排列所形成的分配数列。
表2.2 某班级统计学成绩分布表
考试分数
60以下
60——70
70—80
80—90
90—100
合计
(各组变量值) (次数) (频数)
二、变量数列的编制
1.单项式变量数列,可以直接将每一变量值作为一组,
表2.3 某工厂生产车间工人按日产量分布
日产量
20
21
22
23
24
合计
工人数
3
7
10
6
4
30
比率(%)
10.0
23.3
33.3
20.1
13.3
100.0
人数(人)
2
7
11
12
8
40
频率(%)
20.0
30.0
27.0
17.0
5.0
100.0
(各组变量值) (次数) (频率)
单项式变量数列的编制比较明确、容易。但是用连续变量分组来编制分配数列时,或者虽是离散变量,但数值很多,变化范围很大时,单项数列就不能适用,而应考虑采用组距数列的形式。
2.组距变量数列的编制
以下举例说明:
[例2.1]对某企业30个工人完成劳动定额的情况进行调查,某原始资料如下(%)
98 81 95 84 93 86 91 102 100 103
105 100 104 108 107 108 106 109 112 114
109 117 125 115 120 119 118 116 129 113
第一步:计算全距
将各变量值由小到大排序,确定某最大值,最小值,并计算全距。
变量的最大值是129%最小值是81%
全距 = 最大值 - 最小值=129% - 81%= 48%
第二步:确定组数和组距
在等距分组时,组距与组数的关系是:
11
组距=全距
组数组距=本例中根据一般将成绩分成优、良、中、及格和不及格的五档评分习惯,可以先确定组数为5。在等距分组时,计算组距如下:
48%9.6%
5为了符合习惯和计算方便,组距近似地取10%。
第三步:确定组限
关于组限的确定,应注意如下几点:
第一,最小组的下限(起点值)应低于最小变量值,最大组的上限(终点值)应高于最大变量值。
第二,组限的确定应有利于表现出总体分布的特点,应反映出事物质的变化。
第三,为了方便计算组限应尽可能取整数,最好是5或10的整倍数。
第四,由于变量有连续型变量和离散型变量两种,其组限的确定方法是不同的。
第四步:编制频数(频率)分布表。
表 2.4某企业30个工人劳动定额完成情况分布图表
劳动定额完成程度(%)
80—90
90—100
100—110
110—120
120—130
合计
频数(人)
3
4
12
8
3
30
频数(%)
10.0
13.3
40.0
26.7
10.0
100.0
三、计算累计频数和累计频率
为了更详细的认识变量的分布特征,还可以计算累计频数和累计频率,编制累计频数和累计频率数列。累计频数和累计频率有向上累计频数(频率)和向下累计频数(频率)两种。
以变量值大小为依据,由变量值小的组向变量值大的组累计频数和频率,成为向上累计频数和向上累计频率。
向上累计数的意义是:小于各组的该组上限的各组的频数或频率之和;相反,由变量值大的组向变量值小的组累计各组的频数或频率,称为向下累计频数或向下累计频数。
向下累计数的意义是:大于及等于该组下限的各组的频数或频率之和。
根据上例:某企业工人完成劳动定额的资料编制的向上累计频数(频率)和向下累计频数(频率)分布如表3—8。
表2.5 某企业工人完成劳动定额累计分布表
劳动定额完成情况
(%)
80~90
90~100
100~110
110~120
120~130
合计
频数
(人)
3
4
12
8
3
30
频率
(%)
10.0
13.3
40.0
26.7
10.0
10.0
向上累计
频数
(人)
3
7
19
27
30
—
频率
(%)
10.0
23.3
63.3
90.0
100.0
—
向下累计
频数
(人)
30
27
23
11
3
—
频率
(%)
100.0
90.0
76.7
36.7
10.0
—
四、次数分布的主要类型
1.钟形分布
钟形分布的特征是“两头小、中间大”,即靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少,如果将变量值与其对应的频数在直角坐标系中对应的点连接起来绘制成曲线图,宛如一口钟,所以又称钟形分布。
在自然或社会经济现象中,有许多次数分布是属于钟形分布的。例如,人体体重、身高,学生的成绩,居民货币收入,单位面积的农产品产量,市场价格等现象都属于钟形分布。
12
(a)
(b) (c)
图2.1 钟型频数分布示意图
2.U形分布
U形分布的特征是:靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头大,中间小”的分布特征。将这种分布绘成曲线,像英文字母“U”的形状,故称U形分布
例如,人口死亡率的分布,一般是婴幼儿死亡率和老年人死亡率均较高,而中年人死亡率最低,所以人口年龄分组的死亡率是呈U形分布的。另外,失业人口按年龄的分布等均呈U形分布。
图2.2U型频数分布示意图
3.J形分布
J形分布的特征是“一边小,一边大”,即大部分变量值集中在某一端分布,有两种类型。
(1)正J形分布
正J形分布是次数随着变量值的增大而增多。如投资额按利润率大小分布,一般是正J形分布。
(2)反J形分布
反J形分布是次数随着变量值的增大而减小。如成年人数量按年龄大小分组,表现出年龄越高,人数越少。
图2.3型频数分布示意图
本章难点
1、抽样调查、重点调查与典型调查的比较;
2、统计调查方案的设计;
3、调查对象、调查单位、报告单位的内涵;
4、变量数列的内涵与外延;
5、统计分组的方法与技巧;
复习思考题
1、统计数据的来源渠道有哪些?
2、统计数据搜集方案包括哪几项内容?
3、简要解释调查对象、调查单位与报告单位的含义及它们之间的联系。
4、比较三种非全面调查的特点及应用场合。
5、何谓统计分组?统计分组应遵循的基本原则是什么?
6、说明组距、组限、组数、全距与组中值的含义及其它们的计算方法。
7、统计整理及其意义。
8、品质型数据的显示方法主要有哪些?
13
9、数值型数据的显示方法主要有哪些?
10、论述统计整理的完整过程。
第三章 统计描述
(一)教学目的
通过本章的学习,使同学们正确理解各种指标的概念及计算方法,学会运用相应的统计指标对数据的分布特征进行分析说明。
(二)基本要求
使学生熟练掌握数据分布特征的描述方法。
(三)教学要点
1、集中趋势的测度指标及其计算方法;
2、离散趋势的测度指标及其计算方法;
(四)教学时数
7——9课时
(五)学习内容
本章共分三节:
第一节 统计表与统计图
一、统计表
(一)统计表的概念和结构
1、概念
统计表是表现统计资料的一种形式。把经过大量调查得来的统计资料,经过汇总整理以后,按照一定的规定和要求填列在相应的表格内,就形成了一定的统计表。
2、作用
统计表对表现统计资料具有重要作用。统计表是统计整理的重要形式。它利用表格形式,合理地安排统计资料,清晰、简明地反映出现象总体的特征。统计表通过科学、合理地表现统计资料,便于对统计资料进行对照比较和分析,有利于计算统计分析指标。在统计分析报告中使用统计表,能节省文字叙述篇幅,达到简明易懂、紧凑有力的分析效果。统计表还是汇总和积累统计资料,进行统计分析的重要工具。
3、结构
从外表形式上看,是由四部分构成:A、总标题:它是表的名称,用于概括统计表中要说明的内容。B、横行标题:它是各组的名称,反映总体各组成部分的。C、纵栏标题:它是分组标志或指标的名称,说明纵行所列各项资料的内容。D、指标数值:也称数字资料,它是统计表的具体内容,
从统计表的内容来看,由主词和宾词两个部分组成。主词是统计表所说明的总体,总体的各组或各组的名称。宾词是用于说明主词的各种指标。通常,统计表的主词列在表的左方,宾词列在表的右方。
(二)统计表的种类
1、统计表按照总体分组情况不同,可分为简单表、分组表和复合表三类。
(1)简单表
是主词未经过任何分组,反映出总体各单位的名称或按时间顺序简单排列,或同时反映以上内容的统计表。
(2)分组表
分组表是主词按照一定标志分组的统计表,也称简单分组表。它可以揭示出现象的不同类型的特征,研究现象的内部结构。
(3)复合表
复合表是主词按照两个或两个以上的标志层叠分组所形成的统计表。如表3—13
2、按宾词设计分类,可分为宾词简单排列、分组平行排列和分组层叠排列。
宾词简单排列:宾词不进行任何分组,按一定顺序排列在统计表上。
分组平行排列:宾词栏中各分组标志彼此分开,平行排列。
分组层叠排列:统计指标同时有层次地按两个或两个以上标志分组,各种分组层叠在一起,宾词的栏数等于各种分组的组数连乘积。
(三)统计表的设计:
1、线条的绘制;
2、合计栏的设置;
3、标题设计;
4、指标数值;
5、计量单位;
6、注解或资料来源。
二、统计图
1.统计图的概念
统计图是以图形形象地表现统计资料的一种形式。用统计图表现统计资料,具有鲜明醒目,富于表现,易于理解的特点,因而绘制统计图是统计整理的重要内容之一。
统计图可以揭示现象的内部结构和依存关系,显示现象的发展趋势和分布状况,有利于进行统计分析与研究。
2.统计图的种类
14
常用的统计图主要有条形图、面积图、曲线图、象形图等。
(1)条形图
1.条形图(Bar)。条形图可用于显示离散型变量的次数分布。最主要是显示顺序数据和分类数据的频数分布。条形图是用宽度相同的条形的高度或长短来表示数据的多少的图形。条形图可以横置或纵置,纵置时也称为柱形图。此外,条形图有单式、复式等形式。
在表示分类数据的分布时,用条形图的高度或长度来表示各类别数据的频数或频率。绘制时,各类别可以放在纵轴,称为条形图;也可以放在横轴,称为柱形图。例如,如图2.4所示。
条形图(Bar)用于显示离散型变量的次数分布,用条形的高度来表示变量值的大小,如图2.5所示。
图2. 4 类别数据条形图
图2. 5 离散型变量次数分布条形图
绘制条形图应注意以下几个问题:A、在图形中条形的宽度、条形之间距离要相等;B、图形上的尺度必须以x轴或y轴为等线;C、图形中要注明相应的数字;D、各条形的排列应有一定的顺序,如比较现象在时间上的变动时,条形应按时间顺序排列。
2.直方图( Histogram )和折线图。用于显示连续型变量的次数分布。直方图是用矩形的宽度和高度(即面积)来表示频数分布的图形。在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。在直方图中,实际上是用矩形的面积来表示各组的频数分布。在直方图基础上添加趋势线,形成折线图。例如根据表2—5资料绘制的直方图(图2. 6所示)和折线图(图2.7所示)。
表2. 6某生产车间50名工人日加工零件数原始资料(单位:个)
15
图2. 6 某生产车间50名工人日加工零件频数分布直方图
图2. 7某生产车间50名工人日加工零件频数分布折线图
直方图与条形图不同。首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此,其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示分类数据,而直方图主要用于展示数值型数据。
3.圆形图(饼图 Pie )。用于显示定类变量的次数分布。它是用圆形及圆内扇形的面积来表示数值大小的图形。饼图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在绘制饼图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分比占3600的相同比例确定的。如图2. 8(a)、(b)、(c)所示。
频数(人)20频数(人)频数(人)
105-110110-115115-120120-125125-130130-135135-140零件数(个)20频数(人)111100-111155-112200-112255-113300-113355-140零件数(个)105-
图2.8(a) 饼图
图2. 8(b) 饼图
16
图2. 8c) 饼图
4.环形图。环形图与饼形图类似,但又有区别。环形图中间有一个“空洞”,总体或样本中的每一部分数据用环中的一段表示。饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环。因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于我们进行比较研究。例如根据表2.7、表2.8资料绘制成的环形图,如图2.9所示。
表2.7甲城市家庭对住房状况满意程度的频数分布
表2—7乙城市家庭对住房状况满意程度的频数分布
表2.8乙城市家庭对住房状况满意程度的频数分布
图2.9 环形图
5.线图(Line)。线图是在平面坐标上用折线表现数量变化特征和规律的图形。主要用于显示连续型变量的次数分布和现象的动态变化。例如,根据表2—7资料绘制成的乙城市家庭对住房状况的评价线图,如图2.10(a)、(b)所示。
17
31%26%21%7%13%10%8%15%36%33%非常不满意不满意一般满意非常满意
向上累积户数(户))户400(300数262300户200198户数(户)计100120累02112345非常不满意 不满意 一般 满意非常满意图2.10(a) 乙城市向上累积频数分布图
向下累积户数(户)户(400数300户200279180积102户数(户)累03812345非常不满意 不满意 一般 满意非常满意2.10(b) 乙城市向上累计频数分布图
6.散点图(Scatter)。主要用来观察变量间的相关关系,也可显示数量随时间的变化情况。如图2.11所示。
6050量转40周运30系列1货2050607080国内生产总值图2.11 散点图
第二节 数据分布的集中趋势
一、描述分布集中趋势的主要指标及其作用
、描述分布集中趋势的主要指标:平均数、众数、中位数
、作用:
(1)反映总体各单位变量分布的集中趋势和一般水平;
(2)便于比较同类现象在不同单位间的发展水平;
(3)能够比较同类现象在不同时期的发展变化趋势或规律;
(4)分析现象之间的依存关系时也常借助于平均指标。
二、数值型数据集中趋势的测定
1 2
18
(一)算术平均数
算术平均数(Arithmetic mean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。计算公式为:
算术平均数总体标志总量总体单位总量
很多社会经济现象,总体标志总量常常是总体单位变量值的算术总和。例如,工人工资总额是总体中每个工人工资的总和,某地区小麦总产量是所有耕地小麦产量的总和。在总体标志总量和总体单位总量的基础上,就可以计算平均指标。
算术平均数与强度相对数都是两个总量指标的比值,也都是有名数,都反映了相互联系的两个现象之间的数量对比关系,计算方法也非常相似。但它们却是两个性质不同的统计指标,主要区别有两点:
其一,子项指标与母项指标的关系不同。平均数的子项指标与母项指标属于同一个统计总体,是同一统计总体的总体标志总量与总体单位总量的比值,而强度相对数则是来自两个不同总体但有联系的总量指标之比;
其二,算术平均数的子项指标(标志总量)随着母项指标(总体单位数)的变动而变动,二者互相适应,而强度相对数的子项指标同母项指标之间不存在这样的关系。
算术平均数在统计学中具有重要的地位,是集中趋势的最主要度量值,通常用x(读作xbar)表示。根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平均数。
1.简单算术平均数(Simple arithmetic mean)
未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设统计数据为平均数x的计算公式为:
x1,x2,…,xn,则算术xxx12nxnxi1nin (3.11)
[例3.3] 某班级40名同学统计学的考试成绩原始资料如表3.1—2所示。
表3.2 40名同学统计学原始成绩
该班40名同学统计学的平均成绩为:
X6470407875308977.2340(分)
2.加权算术平均数(Weighted arithmetic mean)
根据分组整理的数据计算算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据被分成k组,各组的变量值为x1,x2,…,xk,各组变量值的次数或频数分别为f1,f2,,fk…,则加权的算术平均数为:
xfxfxkfkx1122f1f2fkxfi1kkiifi1i (3.12)
[例3.4] 根据例3.3提供的40名同学的统计学成绩原始资料分组整理如表3.1—3,根据此表资料计算平均成绩。
19
表3. 3 40名同学统计学成绩汇总表
根据(3.12)式得
Kx
xfi1Kiifi1306076.540
i根据(3.12)式计算的平均成绩是76.5分,而与根据(3.11)式计算的平均成绩77.23分相比,相差0.73分,显然77.23分是准确的平均成绩,因为(3.11)式所用的是原始数据的全部信息。而(3. 12)式是用各组的组中值代表各组的实际数据,使用代表值时是假定各组数据在各组中是均匀分布的,但实际情况与这一假定会有一定的偏差,使得利用分组资料计算的平均数与实际的平均值会产生误差,它是实际平均值的近似值。
加权算术平均数其数值的大小,不仅受各组变量值(xi)大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就越大,反之,则越小。实际上,我们将(3.12)式变形为下面的形式,就更能清楚地看出这一点。
x
xfi1KKiifi1xii1Kfiifi1Ki (3.13)
由(3.13)式可以清楚地看出,加权算术平均数受各组变量值(xi)和各组权数即频率fif大小的影响。频率越大,相应的变量值计i入平均数的份额也越大,对平均数的影响就越大;反之,频率越小,相应的变量值计入平均数的份额也越小,对平均数的影响就越小。这就是权数权衡轻重作用的实质。
当我们掌握的权数不是各组变量值出现的频数,而是频率时,可直接根据(4.3.3)式计算算术平均数。如例3. 2,根据各组的频数计算的频率分别为:0.05、0.2、0.4、0.25、0.1,各组频率之和为1,则用频率计算的加权算术平均数为:
xxii1Kfifi1Ki
550.05650.2750.4850.25950.1
76.5(分)
从计算结果看,用频率加权计算的结果与用频数加权计算的结果是一致的。
需要指出的是,当各组变量值出现的频数(fi)或频率fifi相等时,权数的作用就消失了,这就意味着各组变量值对总平均的结果所起的作用是一样的,此时,加权算术平均数就等于简单算术平均数。
在实际生活中,我们也会经常遇到由相对数计算平均数的情况。一般地说,求相对数的平均数应采用加权平均的方法,此时,用于加权平均的权数不再是频数或频率,而应根据相对数的含义,选择适当的权数。下面举一个实例说明。
20
[例3.5] 某公司所属10个企业资金利润率分组资料如表3.4,要求计算该公司10个企业的平均利润率。
表3.4 某公司所属10个企业资金利润率分组资料
该例子的平均对象是各企业的资金利润率,表中的企业数虽然是次数或频数,但却不是合适的权数。要正确计算公司10个企业的平均资金利润率,因为资金利润率=利润总额/资金总额,所以计算平均资金利润率需要以资金总额为权数,才能符合该指标的性质。因此,该公司10个企业的平均利润率为:
Kxxi1Ki1ifii
算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,算术平均数是一组数据的重心所在,它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性的结果。例如每年分季度的观测数据,各年同季的数据由于受一些偶然性随机因素的影响,其数值表现出一定的差异性,但将各年同季的数据加以平均,计算的算术平均数,就消除了一些随机因素的影响,反映出季节变动必然性的数量特征。再如,对同一事物进行多次测量,由于测量误差所致,或者其它因素的偶然影响,使得测量结果不一致,但利用算术平均数作为其代表值,则可以使误差相互抵消,反映出事物固有的数量特征。另外,算术平均数具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,同时也体现了算术平均数的统计思想。
⑴各变量值与其算术平均数的离差之和等于零,即
f5%4010%8015%14031=11.9%4080140260
(xi1nix)0 或
(xx)fii1ki0
⑵各变量值与其算术平均数的离差平方和最小,即
(xi1nix)min(最小) 或
2(xi1kix)2fimin(最小)
(二)调和平均数(Harmonic mean)
在实际工作中,经常会遇到只有各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。
为了方便调和平均数的概念和计算方法的说明,我们先看一个简单的例子。
[例3.6] 市场上早、中、晚蔬菜的价格分别是早晨: 0.67公斤/元,中午0.5公斤/元,晚上0.4公斤/元。现在,我们分别按四种方法在购买蔬菜,分别计算平均价格(不管按什么方法购买,平均价格都应该等于花费的现金除所买蔬菜的数量):
第一种买法:早、中、晚各买一公斤
X则蔬菜平均价格为:xn0.670.50.43=0.523(元/公斤)
第二种买法:早晨买1公斤,中午买2公斤,晚上买3公斤
xfXf则蔬菜平均价格为:0.6710.520.43123=
=0.523(元/公斤)
第三种买法:早、中、晚各买一元
在这种情况下,计算蔬菜平均价格比上述两种方法稍微复杂一些,我们得先计算出一元钱所购买蔬菜的数量,然后再计算蔬菜的平均价格。
要计算蔬菜的平均价格,首先应该计算出早、中、晚各花费1元钱所购买蔬菜的数量:
21
其中:早晨购买蔬菜的数量=1=1.5(公斤);
0.671=2(公斤);
0.51=2.5(公斤)。
0.4中午购买蔬菜的数量=晚上购买蔬菜的数量=蔬菜平均价格为:X11130.5(元/公斤)
1111.522.50.670.50.4这种计算平均指标的方法同算术平均法有很大的不同,由于资料中缺乏总体单位总量,所以,就不可能直接用算术平均的方法计算平均指标。为了达到计算目的,首先要用变量值的倒数计算出总体单位总量来,然后再计算平均指标,调和平均数法因此而得名,也正是由于这个原因,调和平均数又称为倒数平均数。
第四种买法,早晨买1,中午买2,晚上买3元钱
和第三种买法一样,我们还是得先计算出早晨、中午和晚上所购买蔬菜的数量,然后再计算平均价格。
早晨购买蔬菜的数量=1=1.5(公斤);
0.674=4(公斤);
0.53=7.5(公斤)。
0.4中午购买蔬菜的数量=晚上购买蔬菜的数量=蔬菜平均价格为:X12360.46 =(元/公斤)
1231.547.50.670.50.4在上述计算平均价格的过程中,早、中、晚三个时段购买蔬菜所花费的现金是计算平均价格的权数,这种方法我们称为加权调和平均法。
由以上分析过程得出调和平均数的定义:
调和平均数是各个变量值倒数的算术平均数的倒数,习惯上用(H)表示。计算公式为:
简单调和平均数:
H1111x1x2xnnnxj1k (3.14)
j
加权调和平均数
mm2H1m1m2x1x2mkmkxkmxi1i1KKimii (3.15)
在实际工作中,调和平均数通常是作为算术平均数的变形使用的,也就是由于受所掌握资料的限制,有时不能直接采用算术平均数的计算公
22
式计算平均数,这就需要使用调和平均数的形式进行计算。为了更好地理解调和平均数的应用场合,我们看下面的例子。
[例3.6] 某商品有三种不同的规格,销售单价与销售量如表3.5所示,求这三种不同规格商品的平均销售单价。
表3.5 某商品三种规格的销售数据
从平均价格的实际意义看,其计算方法应该是:
平均价格销售额销售量
根据题中给出的原始数据(三种规格的销售单价和销售量),可以求出销售额(xf)数据,因此计算平均价格在形式上采用的是加权算术平均数公式,即
xxfi1KKiifi1737233.51220(元/件)
i 如果已知的不是销售量数据,而是销售额,如表3.1—6所示,就应改变计算方法。
表3.6 某商品三种规格的销售数据
根据表3.6给出的原始数据(三种规格的销售单价与销售额)计算平均价格时,就无法直接采用加权算术平均数形式。这时,需要根据销售单价和销售额数据先求出销售量数据,再用总销售额除以总销售量即得平均价格,即加权调和平均。根据表4.3.5的数据,代入(4.3.5)式得平均价格为:
Hmii1Kxi1Kmii737233.51(元)220
这与采用加权算术平均数公式的计算结果完全相等。事实上,(4.3.5)式只是加权算术平均数的另一种表现形式,式中mi(销售额)实际上是销售单价xi与销售量fi的乘积,即mi=xifi,这从下面的式中可以清楚地看出来。
Hmi1KKi
由此可见,调和平均数和算术平均数在本质上是一致的,惟一的区别是计算时使用了不同的数据。在实际应用时,可掌握这样的原则,当计算算术平均数其分子资料未知时,就采用加权算术平均数计算平均数,分母资料未知时,就采用加权调和平均数计算平均数。
(三)几何平均数(Geometric mean)
几何平均数是n个变量值乘积的n次方根。可分为简单几何平均数和加权几何平均数,计算公式分别为:
23
mii1xixfii1KKixifii1xixfii1KKixfi1i
Gx1x2n简单平均平均数
xnnxii1kn (3.16)
G加权几何平均数
fii1kxf11xf22xfkkfii1xi1kifi (3.17)
式中,为连乘符号。
几何平均数是适应于特殊数据的一种平均数,在实际生活中,通常用来计算平均比率和平均速度。当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。
[例3.7] 某产品需经三个车间连续加工,已知三个车间制品的合格率分别为95%、90%、98%,求三个车间平均合格率。
由于产品是由三个车间连续加工完成的,第二个车间加工的是第一个车间完工的合格制品,第三车间加工的又是第二车间完工的合格制品,因此,三个车间总合格率是三个车间相应合格率的连乘积,求平均合格率就不能采用算术平均法,而应当用几何平均法。则三个车间平均合格率为:
Gnxi395%90%98%94.28%
i1n
[例3.8] 某地区GDP 1991~1995年平均发展速度为107.2%,1996~1998年平均发展速度为108.7%,1999~2000年平均发展速度为110%,求该地区1991~2000年间的平均发展速度。
由于总速度是各年发展速度连乘形成的,该资料提供的各时段的平均发展速度所代表的时间长度又有所不同,所以根据该资料求平均发展速度需用加权的几何平均法。所要求的平均发展速度为:
Gfii1kxi1kifi101.07251.08731.12
=1.082(或108.2%)
三、、定类数据集中趋势的测定——众数(Mode)
(一) 概念要点
众数是指一组数据中出现次数最多的变量值,用Mo表示。从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。
1.集中趋势的测度值之一
2.出现次数最多的变量值
3.不受极端值的影响
4.可能没有众数或有几个众数
5.主要用于定类数据,也可用于定序数据和数值型数据
众数的不唯一性:
无众数原始数据: 10 5 9 12 6 8
一个众数原始数据: 6 5 9 8 5 5
多于一个众数原始数据: 25 28 28 36 42 42
(二)众数的计算
根据未分组数据或单变量值分组数据计算众数时,我们只需找出出现次数最多的变量值即为众数。对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下的理解:
设众数组的频数为fm,众数前一组的频数为f1,众数后一组的频数为f1。当众数相邻两组的频数相等时,即f1=f1,众数组的组24
中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即后一组的频数多于众数组前一组的频数时,即出的分组数据众数的计算公式如下:
下限公式:
f1>f1,则众数会向其前一组靠,众数小于其组中值;当众数组f1<f1,则众数会向其后一组靠,众数大于其组中值。基于这种思路,借助于几何图形而导MoL
上限公式:
fmf1dL(fmf1)(fmf1)fmf1dU(fmf1)(fmf1)112d (3.1)
MoU
212d (3.2)
式中:L表示众数所在组的下限;
U表示众数所在组的上限;
d表示众数所在组的组距。
[例3.1] 现利用表3.1—1资料计算3000户农民家庭年人均收入的众数。
表3. 1 某地区农民家庭收入资料
从表3.1中的数据可以看出,出现频数最多的是1050,即众数组为1400—1600这一组可得众数为:
fm=1050,f1=480,f1=600,根据(3.1)式Mo1400
1050480200(1050480)(1050600)
=1511.8(元)
利用上述公式计算众数时是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性就会很差。从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此,众数是一个位置代表值,它不受数据中极端值的影响。
四、定序数据集中趋势的测定——中位数
(一)概念要点
中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。
1.集中趋势的测度值之一
2.排序后处于中间位置上的值
3.不受极端值的影响
4.主要用于定序数据,也可用数值型数据,但不能用于定类数据
5.各变量值与中位数的离差绝对值之和最小,即
25
nXiiMeemminin(3.3)
ii11(二)中位数的计算
根据未分组资料和分组资料都可确定中位数。有三种情况:
1.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:
x1x2x3xn
则中位数就可以按下面的方式确定:
Me=xn1 ,当n为奇数 (3.4)
2xnxnMe=2212,当n为偶数 (3.5)
2.对于单项式变量数列资料,由于变量值以及序列化,故中位数可以直接按下面的方式确定:
xf1 ,当f为奇数 (3.6)
2Me=
xfxf2221,当f为偶数 (3.7)
3.对于组距式变量数列,确定中位数也需要分两步进行:
(1)从变量数列的累计频数栏中找出第f个单位所在的组,即“中位数组”,该组的上、下限就规定了中位数的可能取值范围;2(2)假定在中位数组内的各单位是均匀分布的,就可利用下面的公式计算中位数的近似值:
fsMeL1Me2MefdMe (3.8)
MefsMe1
UMe2fdMe (3.9)
Me
26
上面两式分别称作中位数的“下限公式”。式中,一组为止的向下累计频数;
sMe1是到中位数组前面一组为止的向上累计频数,sMe1则是到中位数组后面dMe=UMeLMe为中位数组的组距。
第三节 数据分布的离散趋势
描述一组数据离散程度常用分位差、极差、平均差、方差和标准差(含比率的标准差)、变异系数等。
一、 变异指标含义
平均指标是统计总体中各单位某一数量标志的一般水平,反映了总体分布的集中趋势。集中趋势只是数据分布的一个特征,它所反映的是各变量值向其中心值聚集的程度。而这种聚集的程度显然有强弱之分,这与各变量值的差异有着密切的联系。变量值的差异越大,数值的集中趋势越弱,变量值的差异越小,数据的集中趋势越强。因此,要全面描述数据的分布特征,除了要对数据集中趋势加以度量外,还要对数据的差异程度进行度量。数据的差异程度就是各变量值远离其中心值的程度,因此也称为离中趋势。
(一)变异指标的概念
在统计研究中,通常把一组数值之间的差异程度叫做标志变动度。测定标志变动度大小的指标叫做标志变异指标。标志变动度与标志变异指标在数值上成正比。如果说平均指标说明总体分布的集中趋势的话,标志变异指标则说明总体分布的离中趋势。
(二)变异指标的作用
变异指标是描述数据分布的一个很重要的特征值,因此,它在统计分析、统计推断中具有很重要的作用。具体可以概括为以下几点:
1.反映总体各单位变量值分布的均衡性
一般来说,标志变异指标数值越大,总体各单位变量值分布的离散趋势越高、均衡性越低,反之,变量值分布的的离散趋势越低、均衡性就越高。
2.判断平均指标对总体各单位变量值代表性的高低
平均指标作为总体各单位某一数量标志的代表值,其代表性的高低与总体差异程度有直接关系:总体的标志变异指标值愈大,平均数的代表性愈低;反之,标志变异指标值愈小,平均数代表性愈高。另一方面,平均指标代表性的高低同总体各单位变量值分布的均衡性也有直接关系:总体各单位变量值分布的均衡性越高,平均指标代表性就越高;反之,总体各单位变量值分布的均衡性越低, 平均指标代表性就越低。
3.在实际工作中,借助标志变异指标还可以对社会经济活动过程的节奏性和均衡性进行评价
4.标志变异指标是衡量风险大小的重要指标。
(三)变异指标的类型
根据所依据数据类型的不同,变异指标有全距、平均差、方差和标准差、离散系数等。
二 、全距
全距又称极差,是一组数据的最大值与最小值之差,用R表示。计算公式为:
式中,Rmax(Xi)min(Xi) (3.20)
max(Xi)、min(Xi)分别表示为一组数据的最大值与最小值。由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。R越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,R越小,表明数值变动的范围越小,即数列中各变量值差异小。
[例3.12] 例3.1给出的40个同学统计学的考试成绩,其最高成绩为99分,最低成绩为36,则全距为:
R993663(分)
如果资料经过整理,并形成组距分配数列,全距可近似表示为:
R≈最高组上限值-最低组下限值
全距是描述离散程度的最简单度量值,计算简单直观,易于理解,但其数值大小易受极端变量值的影响,且不反映中间变量值的差异,因而不能准确描述出数据的离中程度。
三、方差和标准差(Variance 、Standard deviation)
方差是各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。
方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实际中应用最广泛的离中程度度量值。由于总体的方差、标准差与样本的方差、标准差在计算上有所区别,因此下面分别加以介绍。
27
(一)总体的方差和标准差
设总体的方差为,标准差为,对于未分组整理的原始资料,方差和标准差的计算公式分别为:
22(Xi1NiX)2 (3.23)
N(Xi1NiX)2 (3.24)
NK对于分组数据,方差和标准差的计算公式分别为:
2
(Xi1iKX)2FiiFi1 (3.25)
(Xi1KiKX)2FiiFi1 (3.26)
[例3.15] 现仍利用[例4.4.5]资料计算方差和标准差,计算过程见表3.10。
表3.10 方差和标准差计算表
2
(Xi1KiKX)2FiiFi1=106190510113.38105(元2 )
210113.38100.57(元)
(二)样本的方差和标准差
样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。
2s设样本的方差为,标准差为s,对于未分组整理的原始资料,方差和标准差的计算公式为:
S2(xx)ii1n2n1 (3.27)
28
S(xx)ii1n2n1k (3.28)
对于分组数据,方差和标准差的计算公式为:
S2
(xx)ii1ki12fi(fi)1 (3.29)
2S(xx)ii1ki1kfi(fi)1 (3.30)
[例3.16] 如果表3.10的数据为样本资料,则计算的样本方差和标准差为:
S2
S
(xx)ii1ki1k2fi(fi)1106190510210.631051
10210.63101.05(元)
22这与根据总体的方差和标准差计算公式计算的结果相差不大。当n很大时,样本方差S与总体的方差的计算结果相差很小,这时样本方差也可以用总体方差的公式来计算。
(三)是非标志的平均数、方差与标准差
在实际生活中,有些事物或现象的特征只表现为两种性质上的差异,例如,产品的质量表现为合格或不合格,人的性别表现为男或女,人们对某种意见表示为同意或不同意;对学生考试成绩分为及格和不及格,等等。这些只表现为是与否、有或无的标志,称为是非标志,也称为交替标志。在进行抽样估计时,是非标志的方差或标准差具有很重要的意义。
1. 成数(比例)
如前所述,是非标志只有两种表现,我们把总体中或样本中具有某种表现或不具有某种表现的单位数占全部单位数的比重称为成数,它反映了总体或样本中“是”与“非”的构成,并且代表着两种表现或性质各反复出现的程度,即频率。例如,某一批产品,合格品占95%,不合格品占5%。在这里。95%和5%均为成数。
若以N1表示总体中具有某种表现的单位数,N0表示总体中不具有某种表现的单位数,N表示总体单位数,则成数可表示为:
PN0N1 或
1PNNN1对应的就是
对于样本来说,与总体n1,与总体N0对应的就是n0,样本单位数为n,则有
p
n1n1p 或
n0n
2. 是非标志的平均数
是非标志是一种品质标志,其表现为文字。因此,在计算平均数时,首先需要将文字表现进行数量化处理。用“1”表示具有某种表现,用“0”表示不具有某种表现,然后以“1”和“0”作为变量值,计算加权算术平均数。现以总体为例予以说明。
Xp
1N10N0N1p (3.31)
N1N0N29
由此可知,总体是非标志的平均数,即为被研究标志具有某种表现的成数P,同样可得样本是非标志的平均数即为被研究标志具有某种表现的成数p。
3. 是非标志的方差与标准差
将经过量化处理的是非标志的表现“1”和“0”作为变量值代入总体的方差计算公式:
P2(XiX)2Fi(1P)2N1(0P)2N0FiN1N0P(1P)
2 为区别于一般变量值的方差,我们将是非标志的方差记为,即
P是非标志的标准差为:
2P(1P) (3.32)
PP(1p) (3.33)
2类似地,可得样本是非标志的方差s和标准差s为:
s2pp(1p) (3.34)
(3.35)
spp(1p)[例3.17] 从一批产品中随机抽取100件产品进行质量测试,测试的结果为96件合格,4件不合格,试计算成数的方差和标准差。
根据所给资料可得:
p49696%1p4%100100
s2p96%4%3.84%sp3.84%19.6%
是非标志的方差、标准差,当p0.5时取得最大值,方差最大值为0.25,标准差最大值为0.5,也就是说,此时是非标志的变异程度最大。如某学生群体中男生数和女生数相等,即男女生的成数均为0.5(或50%),说明该学生群体性别差异程度最大。是非标志的方差、标准差的最小值均为0。
四、离散系数
前面介绍的全距、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小,不仅取决于数值的变异程度,而且还与变量值水平的高低、计量单位的不同有关。所以,不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先做无量纲化处理,即将上述的反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,然后再进行对比。
离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。离散系数是一个无名数,可以用于比较不同数列的变异程度。离散系数通常用V表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为:
VMMD100%X (3.41)
VX100% (3.42)
[例3.19] 甲乙两组工人的平均工资分别为138.14元、176元,标准差分别为21.32元、24.67元。两组工人工资水平离散系数计算如下:
30
V甲V乙21.32100%15.43%138.14
24.67100%14.02%176
从标准差来看,乙组工人工资水平的标准差比甲组大,但不能断言,乙组平均工资的代表性小。这是因为两组工人的工资水平处在不同的水平上,所以不能直接根据标准差的大小作结论。而正确的方法要用消除了数列水平的离散系数比较。从两组的离散系数可以看出,甲组相对的变异程度大于乙组,因而乙组平均工资的代表性要大。
本章难点
1、集中趋势指标的计算方法与应用场合;
2、离散趋势指标的计算方法与应用场合;
3、如何正确运用离散趋势指标评价总体平均水平的代表性;
4、对标准差、方差等指标含义的准确理解。
5、偏度与峰度指标的计算方法与应用场合。
6、各种统计图的灵活应用。
复习思考题
1、考察一个分布数列的特征时,为什么必须同时运用集中趋势指标和离散趋势指标?
2、对总体进行集中趋势的描述时应遵循哪些基本原则?
3、试比较极差和标准差二种变异指标的特点,并说明为什么标准差是最常用、最基本的变异指标?
4、试比较算术平均数、调和平均数、几何平均数、中位数与众数的特点。
5、品质型数据的显示方法主要有哪些?
6、数值型数据的显示方法主要有哪些?
第四章 抽样分布与参数估计
(一)教学目的
通过本章的学习,掌握抽样基本理论及参数的估计方法,学会对总体参数进行区间估计。
(二)基本要求
要求掌握抽样调查中的基本概念、抽样估计的基本方法,学会样本统计量的计算方法,并能对总体参数进行估计。
(三)教学要点
1、不同抽样组织形式的抽样误差计算;
2、总体均值及比例的区间估计;
3、必要抽样数目的计算方法。
(四)教学时数
7——9课时
(五)教学内容
本章共分三节
第一节 抽样分布
一、统计推断
统计学是一门关于数据资料的收集、整理、分析和推断的科学,它的目的是提供显示被研究客观事物的群体特征和数量规律性的方法。根据所掌握客观事物数据资料全面与否,统计学可以分成两类。一类称为描述统计学,它研究如何全面收集被研究客观事物的数据资料并进行简缩处理,描述其群体特征和数量规律性。本书前几章内容即属于描述统计学范畴。另一类称为推断统计学,它研究如何有效地收集和使用被研究客观事物的不完整并且带有随机干扰的数据资料,以对其群体特征和数量规律性给出尽可能精确、可靠的推断性结论。这是统计工作中经常遇到的问题。
[例6.1] 某省政府部门欲了解全省农民收入的平均水平。该省幅员辽阔,人口众多,如果采用普查则工作量及调查费用将异常庞大。一个可行的方法是在全省抽取部分农户进行调查,根据这部分调查所得收入数据资料去推断全省农民收入的平均水平。
[例6.2] 某地为加强环境保护,加强水质监测,考察河水中某种污染物质是否超标。显然对河水全部检验是不可能的,只能从河水中按照
31
一定地点定时取样检验,根据检验结果推断河水中污染物是否超标。
[例6.3] 某水泥厂加强产品质量控制和管理 ,需考察水泥标号是否达到规定标准,其方法是将水泥做成试块进行耐压试验。由于这种试验是一种破坏性试验,显然不能把全部水泥都做成试块,只能从全部水泥中抽取部分进行试验。
从上面例子可以看出,在很多统计问题中,或者由于人力、物力、财力或时间限制,或者由于取得全部数据是不可能的,或者虽然能够取得全面数据但数据收集本身带有破坏性,我们不能收集全面数据,只能从中收集部分数据,依据这部分数据对所研究对象的数量特征或数量规律性进行推断。这种依据部分观测取得的数据对整体的数量特征或数量规律性进行的推断称为统计推断。
统计推断有两种类型。一类是参数估计(Estimation of parameters),由对部分进行观测取得的数据对研究对象整体的数量特征取值给出估计方法。另一类是假设检验(Hypothesis testing),由对部分进行观测取得的数据对研究对象的数量规律性是否具有某种指定特征进行检验。本章研究参数估计问题,下一章研究假设检验问题。
二、几个基本概念
1.样本容量与样本个数
(1)样本容量:样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用n表示,它表明一个样本中所包含的单位数。一般地,样本单位数大于30个的样本称为大样本,不超过30个的样本称为小样本。
(2)样本个数:又称样本可能数目,它是指从一个总体中可能抽取多少个样本。样本个数的多少与抽样方法有关。
2.总体参数与样本统计量
(1)总体参数:总体分布的数量特征就是总体参数,也是抽样统计推断的对象。常见的总体参数有:总体的平均数指标,总体成数(比重)指标,总体分布的方差、标准差等等。
(2)样本统计量:与总体参数对应的是样本统计量。
虽然样本提供了总体的信息,但样本提供的信息是分散的,不集中,不便于有效地对总体进行推断。为了能有效地推断总体,我们必须对样本进行“加工”,把样本中所包含的有关总体某一特征的信息“提取”“聚集”在一起,这就是根据推断问题的需要构造样本的适当函数,不同的样本函数反映总体的不同特征,一旦有了样本观察值就可以由此给出总体特征的推断值。因此自然要求这种样本函数应不包含任何未知参数。称这种样本函数为统计量(Statistic)。
设(X1,X2,Xn)是总体X容量为n的样本,若样本函数
,Xn)
TT(X1,X2例如
中不含任何未知参数,则称T为一个统计量。
1nXXini1就是一个统计量,称为样本均值(Sample mean),
1nS(XiX)2ni1
2也是统计量,称为样本方差(Sample variance),
k1nAkXink1
也是统计量其中k是自然数,称为样本k阶原点矩(Moment of order k about the origin)。
3、重复抽样与不重复抽样
(1)重复抽样:是指从总体中抽出一个样本单位,记录其标志值后,又将其放回总体中继续参加下一次样本单位的抽取。
(2)不重复抽样:即每次从总体中抽取一个单位,登记后不放回原总体,不参加下一次抽样。
三、抽样分布
根据样本统计量去估计总体参数,必须知道样本统计量分布。
某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本算出的该统计量数值的相对数频数分布或概率分布。
由于现实中我们不可能将所有的样本都抽出来,因此,统计的抽样分布实际上是一种理论分布。
(一)样本均值的抽样分布
32
从单位数为N的总体中抽取样本容量为n的随机样本,在重复抽样的条件下共有Nn个可能的样本,在不重复抽样条件下,共有nCNN!2个可能样本。对于每一个样本,我们都可以计算出样本的均值x(或s或p),因此,样本均值是一个随机变量。所有的n!(Nn)!样本均值形成的分布就是样本均值的抽样分布。
[例6.4]设一个总体含有4个个体(元素),即N=4,取值分别为:
x11x22x33x44
总体分布为均匀分布,如图6.1所示。
y
0.3
0.25
0.2
0.1
x
0
1
2
3
图6.1
总体均值:X1042.5
2总体方差:2(xx)n1.25
若重复抽样,n=2 则共有4216个可能样本。具体列示如表
表6.1 可能的样本及其均值
33
每个样本被抽中的概率相同,均值为1
16样本均值的抽样分布如表5.1.2和图5.1.2所示。
样本均值x抽样分布的形状与原有总体的分布有关,如果原有总体是正态分布,样本均值也服从正态分布。
如果总体分布是非正态分布,当x为大样本(n30)时,样本均值的分布趋于服从正态分布;当x为小样本时,其分布不是正态分布。
下面再让我们来看看样本均值x抽样分布的特征:数学期望和方差。
设总体共有N个元素,其均值为,方差为,从中抽取容量为n的样本。
2E(x)xX
2x2x2n(重复抽样)
2Nnn(N1)(不重复抽样)
对于无限总体,样本均值的方差,不重复抽样也可按重复抽样来处理;对于有限总体,当N很大,而n/N又很小,修正系数趋于1,不重复抽样也可按重复抽样来处理。
样本均值x抽样分布的特征—数学期望和方差的计算公式,可以通过[例6.4]加以验证。
样本均值的均值xNn会N11.01.5162i3.54.0402.5
16 样本均值的方差2x(x)n
101.252162n表6.2 样本均值的抽样分布
p(x)
0.3
0.2
0.1
0 1.0 1.5 2.0 2.5 3.0 3.5 4.0
x
34
图6.2 样本均值的抽样分布
(二)样本成数的抽样分布
比例即结构相对数,即成数。
总体比例PN0N1
1PNNn1n
1
样本比例ppn0n
当n很大时,样本比例p的抽样分布可用正态分布近似。
对于样本比例p,若np5和n(1p)5,就可以认为样本容量足够大了。
E(P)p
2Pp(1p)(重复抽样)
np(1p)Nn()(不重复抽样)
nN12P与样本均值分布的方差一样,样本比例的方差,对于无限总体,不重复抽样也可按重复抽样来处理;对于有限总体,当N很大,而n/N5%,修正系数
Nn会趋于1,不重复抽样也可按重复抽样来处理。
N1第二节 抽样误差
一、抽样误差的概念
(一) 抽样误差的一般概念
一般地说,抽样误差是指样本指标与被它估计未知的总体参数(总体特征值)之差。具体地是指样本平均数x与总体平均数X的差,样本成数p与总体成数P的差(p-P)。例如,某地区全部小麦平均亩产400公斤,而抽样调查得到的平均亩产为391公斤或403公斤,则样本指标与总体指标之间的误差为-9公斤或3公斤。
(二) 统计调查误差的种类
统计调查误差按产生的原因可以分为登记性误差和代表性误差。
二、影响抽样误差的因素
1.总体各单位标志值的差异程度。差异程度愈大则抽样误差愈大,差异程度愈小则则抽样误差愈小。
2.样本单位数。在其他条件相同的情况下,样本的单位数愈多,则抽样误差愈小。
3.抽样方法。抽样方法不同,抽样误差也不同。一般情况下重复抽样误差比不重复抽样误差要大一些。
4.抽样调查的组织形式。不同的抽样组织形式就有不同的抽样误差。
三、抽样平均误差
35
(一) 抽样平均误差的意义
抽样平均误差是反映抽样误差一般水平的指标,其实质是抽样指标的标准差。抽样平均误差反映抽样指标和总体指标间的平均误差程度。
(二) 抽样平均误差的计算
1.平均数抽样的平均误差
重复抽样条件下:xn
不重复抽样条件下:x2.成数抽样平均误差
重复抽样条件下:2n(1n)
Npp(1p)n
不重复抽样条件下:pp(1p)n(1)
nN3.重复抽样和不重复抽样条件下抽样平均误差的区别。
从上面的计算公式可看到,在其他条件相同的情况下,重复抽样和不重复抽样仅差一个修正因子的平方根(1nn)。1,由于1Nn所以不重复抽样的平均误差小于重复抽样的平均误差的1nN倍。nN又称抽样比例或抽样强度。
四、抽样极限误差
1.抽样极限误差的概念
抽样极限误差是指抽样指标与总体指标之间误差可允许的最大范围。
因平均误差反映抽样的可能误差范围,而实际上每次抽样推断中只抽一个样本,因此实际上的抽样误差可能大于抽样平均误差,也可能小于抽样平均误差。误差太大或太小都会给抽样工作造成不利影响,因而在抽样估计时,应根据研究对象的变异程度和分析任务的要求确定可允许误差的范围,这一允许范围称极限误差。
2.抽样误差的概率度
把极限误差x或p分别除以x或p得相对数t ,表示误差范围为抽样平均误差的t倍。t是测量估计可靠程度的一个参数,称抽样误差的概率度。
txx或tpp
3.抽样极限误差与概率度、抽样平均误差的关系。
抽样极限误差与概率度、抽样平均误差可以互相推算。即:
x
t.x或
pt.p
36
xxp或p
tt以上公式展开以后可得到下面公式:
xt2n 或
xt2n(1n)
Nptp(1p)n 或
ptp(1p)n(1)
nN第三节 参数估计和样本容量的确定
一、参数估计概述
在许多实际问题中,总体被理解为我们所研究的那个统计指标,它在一定范围内取数值,而且是以一定的概率取各种数值的,从而形成一个概率分布,但是这个概率分布往往是未知的。例如为了制定绿色食品的有关规定,我们需要研究蔬菜中残留农药的分布状况,对这个分布我们知之甚少,以致它属于何种类型我们都不清楚。有时我们可以断定分布的类型,例如在农民收入调查中,根据实际经验和理论分析如概率论中的中心极限定理,我们断定收入服从正态分布,但分布中的参数取何值却是未知的。这就导致统计估计问题。统计估计问题专门研究由样本估计总体的未知分布或分布中的未知参数。直接对总体的未知分布进行估计的问题称为非参数估计;当总体分布类型已知,仅需对分布的未知参数进行估计的问题称为参数估计。本节我们研究参数估计问题。本节及以后假定抽样方法为放回简单随机抽样,样本的每个分量都与总体同分布,它们之间相互独立。
二、参数估计的基本方法
(一)估计量与估计值
1.参数估计就是用样本统计量去估计总体参数
2.用来估计总体参数的统计量的名称称为估计量,如样本均值、样本比例、样本方差等都可以是一个估计量。
3.估计量的具体数值称为估计值
(二)点估计与区间估计
参数估计方法有点估计与区间估计两种方法。
1.参数估计的点估计法
(1)设总体X的分布类型已知,但包含有未知参数,从总体中抽取一个简单随机样本(X1,X2,对总体未知参数进行估计。构造一个适当的统计量
,Xn),欲利用样本提供的信息ˆT(X1,X2,,Xn)
ˆ为未知参数的点估计量(Point estimate)作为的估计,称。当有了一个具体的样本观察值(x1,x2,到估计量的一个具体观察值T,xn)后,将其代入估计量中就得(x1,x2,,xn),称为参数的一个点估计值。今后点估计量和点估计值这两个名词将不强调它们的区别,通称为点估计,根据上下文不难知道此处的点估计究竟是点估计量还是点估计值。
通俗地说,用样本估计量的值直接作为总体参数的估计值称为点估计。
常用的点估计量有:2、估计的评价标准:
X
pP
s22(XX)n12
ˆ(1)无偏性: 设T(X1,X2,,Xn)是未知参数的一个点估计量,若ˆ满足
Eˆ
即估计量的数学期望等于被估计参数
ˆ是的无偏估计量(Unbiad estimate)则称,否则称为有偏估计量。
37
ˆ是样本(X,X,需要注意的是,由于估计量12的概率分布求平均。
ˆ求平均是按样本(X,X,,Xn)的函数,样本量是n维随机变量,所以对12,Xn)无偏性是我们衡量点估计量好坏的一个评价标准,这个评价标准的直观意义如下。由于样本的出现带有随机性,所以基于一次具体抽样所得的参数估计值未必等于参数真值,这是由样本的随机性造成的。我们希望当大量使用这个估计量对参数进行估计时,一系列估计值的平均值应该与待估参数真值相等。这就从平均效果上对估计量的优劣给出一个评价标准。
ˆ(2)有效性:设1取值有
T1(X1,X2,ˆT(X1,X2,,Xn),22,Xn)均为未知参数的无偏估计量,如果对参数的一切可能ˆ)Var(ˆ)
Var(12ˆ比ˆ有效(Efficiency)且严格不等号至少对参数的某个可能值成立,则称无偏估计量。
12一个无偏估计量并不意味着他就非常接近被估计的参数,他还必须与总体参数的离散程度比较小。对同一总体参数的两个无偏点估计量,方差小者更有效。
(3)一次性:设对容量为n的样本(X1,X2,意>0,
ˆT(X1,X2,,Xn),nn,Xn)是参数的一个估计量,n1,2,若对任limPˆnn1
则称ˆ是的一个一致的估计量序列,或称此估计量序列ˆ具有一致性。
nn随着样本容量的增大,点估计量的值越来越接近总体参数
2.参数估计的区间估计法
在参数估计中,虽然点估计可以给出未知参数的一个估计,但不能给出估计的精度。为此人们希望利用样本给出一个范围,要求它以足够大的概率包含待估参数真值。这就是导致区间估计(Interval estimation)问题。
所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计成立的概率值。
设是未知参数,(X1,X2,ˆT(X1,X2,,Xn)是来自总体的样本,构造两个统计量11满足
ˆT(X1,X2,,Xn),22,Xn),ˆ、ˆ对于给定的(0<<1),若12ˆPˆ1
2
1
ˆ,ˆ]是参数的置信水平(Confidence level)为1的置信区间(Confidence interval),
1称为[ˆ,则称随机区间[121。
ˆ2]的置信度,ˆ1,ˆ2称为置信限(Confidence limit)这里有几点需要说明:
ˆ,ˆ]的端点ˆ,ˆ及长度ˆ-ˆ都是样本的函数,从而都是随机变量,因此[ˆ,ˆ]是一个随机区间。 (1)区间[12122112(2)Pˆ
ˆ12
1是说随机区间ˆ,ˆ]以1的概率包含未知参数真值,区间长度ˆ-ˆ描述估计的精度,[1221ˆ]包含的,2置信水平1描述了估计的可靠度。
ˆ,ˆ]的概率是1,而应是随机区间[ˆ(3)因为未知参数是非随机变量,所以不能说落入区间[121概率是1。
通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计。
三、总体均值的区间估计
(一)正态总体且方差已知;或非正态总体、方差未知、大样本情况下
38
在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值,方差为信水平下的置信区间。
设样本(X1,X2,2n。则XZ2n称为总体均值在1置,Xn)来自正态总体N(,x),是总体均值,当x22已知时数理统计证明X服从正态分布N(,2n),从而X服从标准正态分布N(0,1),对给定的置信度1查N(0,1)表可得Zn2,使得
XPZ1
n2从而有
PXZXZ1
22nn取
ˆ1XZ则
n2ˆ2XZ,n2
ˆ1,ˆ2即是的置信水平为1的置信区间。
[例6.5]保险公司从投保人中随机抽取36人,计算得36人的平均年龄X39.5岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间。
解:10.99,0.01,查N(0,1)表得Z2.575
2XZn239.52.5757.236.41
367.242.59
36XZn239.52.575故全体投保人平均年龄的置信水平为99%的置信区间为[36.41,42.59]
在不重复抽样条件下,置信区间为:
XZ2nNnN1 (6.17)
[例6.6]一家食品公司,每天大约生产袋装食品若干,按规定每袋的重量应为100g。为对产品质量进行检测,该企业质检部门采用抽样技术,每天抽取一定数量的食品,以分析每袋重量是否符合质量要求。现从某一天生产的一批食品8000袋中随机抽取了25袋(不重复抽样),测得它们的重量如表6.3所示。
表6.3 25袋食品重量
已知产品重量服从正态分布,且总体方差为100g。试估计该批产品平均重量的置信区间,置信水平为95%。
39
解:已知=100g,n=25,1=95%,Z22=1.96
根据样本资料,计算的样本均值为:
Xx2634105.36
n25根据(6.17)式得
XZNn2nN1=105.36±1.96×10025×80002580001
即105.36±3.914115=(101.4459, 109.2741),该批产品平均重量在95%置信水平下的置信区间为:101.4459~109.2741。
若总体方差2未知,可用样本方差S2代替
[例6.7]承[例6.5]假定保险公司从投保人中随机抽取36人,得到他们的年龄数据如表6.4所示。
表6.4 36名投保人的年龄
若总体方差未知,试建立投保人年龄90%的置信区间。
解:已知n=36,1=90%,Z22=1.645,由于总体方差未知,但为大样本,故可用样本方差代替。
根据样本资料计算的样本均值和样本标准差为:
x2X142239.5
s(xx)n36n17.77
(样本均值和样本标准差的计算,也可直接通过Excel软件中的描述统计功能计算,计算结果如图6.3所示)
图6.3 描述统计运行结果
40
则置信区间为:
XZ2s7.7739.51.645
n36即39.5±2.13=(37.37,41.63),投保人平均年龄在90%的置信水平下的置信区间为37.37岁~41.63岁。
(二)正态总体、方差未知、小样本情况下
如果总体服从正态分布,无论样本容量大小,样本均值的抽样分布都服从正态分布。只要总体方差已知,即使在小样本情况下,也可以计算总体均值的置信区间。如果总体方差2未知,需用样本方差S2代替,在小样本情况下,应用t分布来建立总体均值的置信区间。
t分布是类似正态分布的一种对称分布,他通常要比正态分布平坦和分散。随着自由度的增大,t分布逐渐趋于正态分布。
正态总体、方差未知、小样本情况下,总体均值在1置信水平下的置信区间为:
Xts2n (重复抽样条件下) (6.18)
XtsNn2nN1 (不重复抽样条件下) (6.19)
其中t(n1)为t分布临界值,可以查t分布临界值表得到,也可由Excel计算得到。
2Excel计算,可使用粘贴函数 “Tinv”完成。操作步骤依次为:Tinv→→df→确定
[例6.8]已知某种电子元件的寿命服从正态分布,现从一批电子元件中随机抽取16只,测得其寿命如图6.4中的原始数据部分。
图6.4 16只电子元件寿命原始数据及描述统计部分结果
试建立该批电子元件使用寿命95%的置信区间。
根据样本资料计算的样本均值和样本标准差为:
x2Xn23840161490
s(xx)n124.77
(样本均值和样本标准差的计算,也可直接通过Excel软件中的描述统计功能计算,计算结果如图6.4所示)
由1=95%知,t(n1)=t0.025(15)=2.131
2则该批电子元件平均使用寿命95%的置信区间为:
Xts2n14902.13124.7716
即149013.2=(1476.8,1503.2),该批电子元件平均使用寿命在95%的置信水平下的置信区间为1476.8小时~1503.2小时。
41
现将总体均值的区间估计总结如表6.5所示.
表6.5 不同情况下总体均值的区间估计
四、总体比例的区间估计
在大样本(一般经验规则:np明如下结论:
置信水平为1的置信区间为:
5和n(1p)5)条件下,样本比例的抽样分布可用正态分布近似。在这种情况下,数理统计已经证pZ2p(1p)n (重复抽样)
pZ2p(1p)Nn() (不重复抽样)
nN1[例6.9]某城市想要估计下岗职工中女性所占的比例,采取重复抽样方法随机抽取了100名下岗职工,其中65人为女性。试以95%的置信水平估计该城市下岗职工中女性所占比例的置信区间。
解:已知n100,z根据公式得:
21.96,p6565%
100pZ2p(1p)65%(165%)65%1.96n100
即65%±9.35%=(55.65%,74.35%),95%的置信水平下估计该城市下岗职工中女性所占比例的置信区间为55.65%~74.35%。
[例6.10]某企业共有职工1000人,企业准备实行一项改革,在职工中征求意见,采用不重复抽样方法,随机抽取200人作为样本,调查结果显示,由150人表示赞成这项改革,有50人表示反对。试以95%的置信水平确定赞成改革的人数比例的置信区间。
解:已知n200,z根据公式得:
21.96,p15075%
200pZ2p(1p)Nn()
nN175%(175%)1000200()
2001000175%1.96即75%±5.37%=(69.63%,80.37%),95%的置信水平下估计赞成改革的人数比例的置信区间为69.63%~80.37%。
五 、 样本容量的确定
(一)影响样本容量的因素
在抽取样本时样本容量应多大是一个很实际的问题。样本容量取得比较大,收集的信息就比较多,从而估计精度比较高,但进行观测所投
42
入的费用、人力及时间就比较多;样本容量取得比较小,则投入的费用、人力及时间就比较少,但收集的信息也比较少,从而估计精度比较低。这说明精度和费用对样本量的影响是矛盾的,不存在既使精度最高又使费用最省的样本量。一个常用的准则是在使精度得到保证的前提下寻求使费用最省的样本量。由于费用通常是样本量的正向线性函数,故使费用最省的样本量也就是使精度得到保证的最小样本量。
(二)估计总体均值时样本容量的确定
在简单随机重复抽样下,设样本(X1,X2,,Xn)来自正态总体N(,x2),总体均值的点估计为样本均值X。如果要求以X估计时的绝对误差为Δ,可靠度为1,即要求
PX1
由
XPz1
2/n知
PXz1
2n故只要需取绝对误差
z从而解得
nn
222z22(重复抽样条件下)
同理,在简单随机不重复抽样条件下,我们可以得出估计总体均值时样本容量的计算公式为:
n22Nz2Nz2222(不重复抽样条件下)
[例6.12] 在某企业中采用简单随机抽样调查职工月平均奖金额,设职工月奖金额服从标准差为10元的正态分布,要求估计的绝对误差为3元,可靠度为95%,试问应抽多少职工?
解:已知10310.95n22z2z1.96则
221.96210242.6843
23即需抽取43名职工作为样本进行调查。
(三)估计总体比例时样本大小的确定
在简单随机重复抽样条件下,估计总体比例时,我们可以定义绝对误差d为:
Z从而得到样本容量:
n2p(1p)n
Z2P(1P)2P2(重复抽样条件下) (6.25)
同理,在简单随机不重复抽样条件下,我们可以得出估计总体比例时样本容量的计算公式为:
43
nNZ2P(1P)2NPZ2P(1P)22(不重复抽样条件下) (6.26)
[例6.13]根据以往的生产统计,某种产品的合格率为90%,现要求绝对误差为5%,在置信水平为95%的置信区间时,应抽取多少个产品作为样本?
已知,P90%
P5%
Z1.96
2Z2P(1P)1.9620.9(10.9)139 则n2=0.052P2
本章难点
1、如何理解抽样估计的基本理论;
2、抽样误差的含义与计算方法;
3、不同类型总体的参数区间估计问题。
复习思考题
1、什么是抽样估计,抽样估计的基本方法有哪些?
2、在抽样估计中,为什么说准确性的要求和可靠性的要求是一对矛盾,在实际估计中又如何解决这对矛盾?
3、抽样估计的优良标准是什么?
4、什么是抽样平均误差、抽样极限误差,两者在抽样估计中发挥什么作用?
5、类型抽样中的分组和整群抽样中的分群有什么不同意义和不同要求?
6、为什么说对总体指标的区间估计只能是一种可能范围估算,而不是绝对范围估算?
第五章 假设检验
(一)教学目的
假设检验是抽样推断的继续和必要补充,在推断统计中起重要作用。了解假设检验的基本思想,掌握检验的步骤,学会对总体均值和总体比例的假设检验。
(二)基本要求
要求掌握假设检验的基本思路,区分假设检验中的两类错误,学会对总体参数进行假设检验。
(三)教学要点
1、假设检验的基本思想;
2、假设检验的基本概念及步骤;
3、不同总体的各种参数的假设检验。
(四)教学时数
3——5课时
(五)教学内容
本章共分二节
第一节 假设检验概述
一、假设检验的基本思想
1、小概率原理
如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。
总 体 样 本
抽样
(某种假设) 观察结果
检验
44
(接受) (拒绝)
小概率事件 小概率事
未 发 生 件 发 生
2、假设的形式
H0——原假设, H1——备择假设
双尾检验:H0:μ=μ0 , H1:μ≠μ0
单尾检验:H0:μ≥μ0 , H1:μ<μ0
H0:μ≤μ0 , H1:μ>μ0
假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。
二、假设检验规则与两类错误
1、确定检验规则
检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0。
差 异
临界点
c
c
判 断
拒绝H0
接受H0
|X0||X0|< 怎样确定c?
2、两类错误
接受或拒绝H0,都可能犯错误
I类错误——弃真错误,发生的概率为α
II类错误——取伪错误,发生的概率为β
检验决策
拒绝H0
接受H0
α大β就小,α小β就大
基本原则:力求在控制α前提下减少β
α——显著性水平,取值:0.1, 0.05, 0.001, 等。如果犯I类错误损失更大,为减少损失,α值取小;如果犯II类错误损失更大,α值取大。
确定α,就确定了临界点c。
①设有总体:X~N(,2xH0为真
犯I类错误(α)
正确
H0非真
正确
犯II类错误(β)
),σ已知。
2
45
2②随机抽样:样本均值
X。
X~N(,n)③
X标准化:
Z。n
0~N(0,1)④确定α值,
拒绝域
接受域
拒绝域
⑤查概率表,
22 知临界值
|Z|2⑥计算Z值,作出判断。
ZZ
Z
20
2
三、假设检验的一般步骤
(1)
建立总体假设
H0,H1
(2) (3) (4)
抽样得到样 选择统计量 根据具体决策
本观察值 确定H0为真 要求确定α
(6) 时的抽样分布 (5)
计算检验统计量 确定分布上的临界
的数值 点C和检验规则
(7)
比较并作出检验判断
46
第二节 总体均值、比例和方差的假设检验
一、总体均值的检验
类型 条 件 检验统计量 H0、H1 拒绝域
正态总体
x(1) H0:μ=μ0
Z0σ2已知
n22 H1:μ≠μ0
0
Z
(2) H0:μ≤μ0
α
I H1:μ>μ0
0 Z
Zα
(3) H0:μ≥μ0
α
H1:μ<μ0
0
Z
-Zα
正态总体σ2未知
tx0(1) H0:μ=μ0
22(n<30)
Sn H1:μ≠μ0
tt
20
t2(2) H0:μ≤μ0
α
II H1:μ>μ0
0
tt
α
(3) H0:μ≥μ0
α
H1:μ<μ0
-t0
t
α
非正态总体n≥30 (1) HZx00:μ=μ0
22σ2已知或未知
n H1:μ≠μ0
ZZ
Zx0
20
Z2Sn(2) H0:μ≥μ0
α
III H1:μ>μ0
0
Z
Zα
(3) H0:μ≥μ0
α
H1:μ<μ0
-Z0
Z
α
47
二、总体成数的检验
条 件
np≥5
nq≥5
检验统计量 H0、H1
(1) H0:P=P0
H1:P≠P0
拒绝域
(2) H0:P≤P0
1.
ZPpp(1p)n2Z220
Z2Z
α
H1:P>P0
(P)
Z
0
Zα
(3) H0:P≥P0
α
H1:P<P0
-Zα
0
Z
n1p1≥5 (1) H0:P1=P2
ZPˆ1Pˆ222n1q1≥5
PˆqˆPˆqˆ H1:P1≠P2
ZZZ
n2p2≥5
2n
0
2n1n22q2≥5
(2) H0:P1≤P2
2.
Pˆn1Pˆ21n2Pˆ2 H1:P1>P2
(P1-P2)
n1n2
0
Zα
Z
(3) H0:P1≥P2
Hα
1:P1<P2
-ZZ
α
0
第三节 假设检验中的其他问题
一、利用置信区间进行假设检验
(一)、双侧检验
1.求出双侧检验均值的置信区间
2已知时:xz2n,xz2n
2未知时:xtssn112n,xtn2n
2.若总体的假设值0在置信区间外,拒绝H0
(二)左侧检验
48
1.求出单边置信下限
xzn或xtsn1n
2. 若总体的假设值0小于单边置信下限,拒绝H0
(三)、右侧检验
1.求出单边置信下限
xzn或xtsn1n
2.若总体的假设值0大于单边置信下限,拒绝H0
本章的重点
1、假设检验的基本思想;
2、不同总体的各种参数的假设检验。
复习思考题
1、抽样推断与假设检验是一回事吗?若不是,两者关系如何?
2、什么是零假设,零假设与备择假设有什么不同?
3、第一类错误与第二类错误有何不同?
4、如果“总体均值等于4”的零假设在研究过程中被错误地拒绝了,请问这是犯了第几类错误?
第六章 方差分析
(一)教学目的
通过本章的学习使学生掌握方差分析的基本方法
(二)基本要求
要求了解方差分析的基本概念,掌握方差分解的思想,学会单因素方差分析的方法及检验。
(三)教学要点
1、方差分析的基本概念;
2、方差的分解及检验统计量;
3、单因素条件下离差平方和的分解及因素作用的检验;
(四)教学时数
3——4课时
(五)教学内容
本章共分二节:
第一节 方差分析的基本问题
一、方差分析问题的提出
在生产实践、科学实验及经济工作中,经常遇到这样的问题:影响产品产量、质量、经济指标的因素往往很多。例如影响农作物产量的因素有种子、肥料、土质、水分、气候等等;影响产品销售的因素有广告、款式、包装、颜色、人口、收入等等。有的因素影响较大,有的因素影响较小,我们需要了解在诸多因素中哪些因素影响显著。因此,我们需要进行试验,然后对试验结果进行处理和分析。
例1 小麦品种比较试验
在气候、水利、土质、肥料和管理等条件基本相同时,进行小麦品种比较试验。有5个小麦品种,考察小麦品种对产量的影响作用,从中挑选优良品种。若小麦品种这个因素对产量没有影响,则各品种下的平均小麦产量应该没有显著差异。若通过分析发现各品种下的平均小麦产量差
49
本文发布于:2023-12-29 07:41:37,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/170380689744945.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:统计学教案.doc
本文 PDF 下载地址:统计学教案.pdf
| 留言与评论(共有 0 条评论) |