1、统计学:搜集、分析、表述和解释数据的科学与艺术
2、下列数据分别对应哪些测量尺度?
A.客服电话对应的按键号码
(名义尺度)
B.汇率
(比率尺度)
C.班级评优排名
(顺序尺度)
D.郑州大学河南工大和河南财大的学生人数
(间隔尺度)
3、品质型数据是用于反映每一个体属性的标签或名称,可以用名义尺度也可以用顺序尺度
度量,既可以是数值型的也可以是非数值型的。数量型数据是表示大小或多少的数值,既可
以用间隔尺度也可以用比率尺度度量。
4、频数分布与相对频数分布(百分数频数)
品质型:
表2-2软饮料购买次数的频数分布
数量型:
表2-6审计时间数据的频数分布表2-7审计时间数据的相对和百分数频数分布
5、茎叶图
对于超过三位数的数据,可以使用近似值的方法构建茎叶图。
4226792
19541733
BrandPurchadfrequency
CokeClassic19
Pepsi-Cola13
DietCoke8
5
Sprite5
total50
软饮料相对频数百分数频数
CokeClassic0.3838
Pepsi-Cola0.2626
DietCoke0.1616
0.1010
Sprite0.1010
total1.00100
审计时间/天频数
10-144
15-198
20-245
25-292
30-341
总计20
审计时间/天相对频数百分数频数
10-140.2020
15-190.4040
20-240.2525
25-290.1010
30-340.055
总计1.00100
6、平均数、中位数、众数、极差、四分位数间距、方差、标准差、百分位数
平均数:总体平均数:
中位数:将所有数据按升序排列时,位于中间的数值即为中位数。
众数:众数是数据集中出现频率最高的数据值。
百分位数:百分位数提供了关于数据如何在最小值与最大值之间分布的信息。(举例:假设
某个考生考了74分,对应着第70百分位数,那么就约有70%学生的成绩比他低,大约有
30%的学生成绩比他高。)
极差:
四分位数间距:是第三四分位数Q3与第一四分位数Q1的差值,也就是说,四分位数间距
是在中间的50%的数据的极差。IQR=Q3-Q1
方差:标准差:
7、五数概括法:
例:12个商学院毕业生的起始月薪
271027552850|288028802890|292029402950|3
Q1=2865Q2=2905Q3=3000
(中位数)
起薪数据五数概括为:2710,2865,2905,3000,3325。大约有1/4或25%的观察值在五数
概括法的相邻两个数之间。
习题:
考虑一个含有数据值53,55,70,58,64,57,53,69,57,68和53的样本,计算其平均数、
中位数和众数。平均数=59.73中位数=57众数=53
考虑含有数据10,20,12,17和16的样本,计算方差和标准差.方差:16标准差:4
加权平均数:
8、切比雪夫定理:与平均数的距离在z个标准差之内的数据项所占比例至少为(1-1/z2),
式中的z是大于1的任意实数。
习题:
(1)对1154个成年美国人进行的调查显示,他们在工作日中每天平均睡眠时间6.9
小时。假设标准差为1.2小时。
a.利用切比雪夫定理计算每天睡眠时间在4.5-9.3小时之间的人数百分比;
b.利用切比雪夫定理计算每天睡眠时间在3.9-9.9小时之间的人数百分比。
答案:a.z=(6.9-4.5)/1.2=(9.3-6.9)/1.2=2
1-1/z2=1-1/22=0.75
b.z=(6.9-3.9)/1.2=(9.9-6.9)/1.2=2.5
1-1/z2=1-1/2.52=0.84
(2)美国人平均每月外出就餐费用65.88美元。一个由年轻成年人组成的样本提供
了过去几个月他们外出就餐费用的数据如下:
2531225
829124
111781
55152134169
a.计算平均数、中位数和众数;b.计算第一和第三四分位数;
c.计算极差和四分位数间距;e.计算方差;
g.数据中是否有异常值。
平均数=138.52
中位=12.5
中位数(第13位)=129
第一四分位=6.25
第一四分位数(第7位)=95
第三四分位=18.75
第三四分位数(第19位)=169
四分位间距=74
1.5四分位间距=111
极差=467
方差=9271.01
标准差=96.28608415
9、事件的概率——事件的概率等于事件中所有的样本点概率之和。
例子:计算KP&L公司在10个月或10个月以内完成工程的概率。
样本点包括:
事件的概率:
10、加法公式:
假设我们有一个样本空间,它包含有5个等可能发生的试验结果:E1,E2,E3,E4,E5。令
A={E1,E2},B={E3,E4},C={E2,E3,E5}。
答案:
11、随机变量的期望方差:
12、标准正态分布:
(1)计算z值在-1.00和1.00的概率
P(0≤z≤1)=0.3414P(-1≤z≤1)=0.3413*2=0.6826
(2)计算z值至少为1.58的概率
P(0≤z≤1.58)=0.4429P(z≥1.58)=0.5-0.4429=0.0571
13、均值抽样和比率抽样:
抽样分布的形态(中心极限定理)
(1)总体分布为正态分布:抽样分布在任何样本容量下都是正态分布。
(2)总体分布为非正态分布:需要借助中心极限定理。
中心极限定理(样本n≥30):
(看6、7章习题课课件)
均值抽样:
根据100名EAI管理组成的简单随机样本得到的样本均值在总体均值左右500美元以内的
概率多大?
解决思路:
1)样本数量n≥30,可以利用中心极限定理将抽样分布转化为一种正态分布
2)抽样分布的期望=总体均值μ(得到抽样概率分布的中位数μ)
3)计算抽样分布的方差
4)转化为标准分布,计算z=(x-μ)/σ
5)查表计算概率值
比率抽样:
n
x
/_
六七章习题课:
一、标准普尔公司股票的平均价格为30美元,标准差是8.2美元。假定股票的价格服从正
态分布。a.某公司股票价格至少为40美元的概率是多少?
b.某公司股票价格不超过20美元的概率是多少?
c.若公司股票价格排名位于全部股票价格的前10%,则公司的股票价格至少应达到多少?
解:1.当x=40时,z=(40-30)/8.2≈1.22
P(0≤z≤1.22)=0.3888(查表)
P(x≥40)=0.5-0.3888=0.1112
2.当x=20时,z=(20-40)/8.2≈-1.22
P(-1.22≤z≤0)=0.3888
P(x≤20)=0.5-0.3888=0.1112
3.0.4对应的z=1.28.x=30*8.2+30=40.50
股票价格等于或高于40.50美元的的公司进入前10%
二、在芝加哥,一个人用于工作途中的时间的均值为31.5分钟。假定总体均值μ=31.5分
钟,总体标准差σ=12分钟,选择50名芝加哥居民组成的样本。
1.给出的抽样分布,其中是50名芝加哥居民用与工作途中的时间的样本均值。
2.样本均值在总体均值μ左右正负1分钟以内的概率为多少?
3.样本均值在总体均值μ左右正负3分钟以内的概率为多少?
解:1.服从正态概率分布,E()=31.5和=12/sqrt(50)≈1.70
2.z=1/1.70=0.59P=0.2224*2=0.4448
3.z=3/1.70=1.76P=0.4608*2=0.9216
三、印第安纳州联邦正负雇员的平均年薪为41979美元。将该数据作为总体均值,并假设总
体标准差σ=5000美元。假定从总体中选取50名联邦雇员组成一个随机样本。试问:
1.均值标准误差的值是多少?
2.样本均值大于41979美元的概率为多少?
3.样本均值在总体均值μ左右正负1000美元以内的概率为多少?
4.当样本容量增加到100时,(3)中概率如何变化?
解:1.样本足够大,符合中心极限定律,满足正态分布
=5000/sqrt(50)=707.10
2.符合正态分布,大于均值概率为0.5。
3.z=1000/707.10=1.41P=0.4207*2=0.8414
4.=5000/sqrt(100)=500z=1000/500=2P=0.4772*20.9544
四、2000年6月13日,个人投资者中30.5%对短期股票市场持有消极态度。假设选取200
名个人投资者组成一个样本,回答下列问题。
1.求的抽样分布,其中为个人投资者中对短期股票市场持消极态度的人的样本比率。
2.样本比率落在总体比率P左右正负0.4的概率为多大?
3.样本比率落在总体比率P左右正负0.02的概率为多大?
_
x
_
x
解:1.服从E()=0.305和=0.0326的正态分布
=sqrt(0.305*(1-0.305)/200)=0.0326
2.z=0.04/0.0326=1.23P=0.3907*2=0.7814
3.z=0.02/0.0326=0.61P=0.2291*2=0.4582
五、ORCinternational称,在因特网使用者中有71%是通过普通的电话线将计算机与因特网
连接起来的。假设总体比率p=0.71.
1.对一个由350名因特网使用者组成的简单随机样本中,样本比率落在总体比率p左
右正负0.05的概率为多少?
2.对一个由350名因特网使用者组成的简单随机样本中,样本比率大于等于0.75的概
率为多少。
解:1.抽样方差(比率的标准误差)
==sqrt(0.71*(1-0.71)/350)=0.0243
z=0.05/0.0243=2.06
P=0.4803*2=0.9606
2.z=(0.75-0.71)/0.0243=1.65
P(0≤z≤1.65)=0.4505
P(x≥0.75)=0.5-0.4505=0.0495
第八章:
区间估计:
总体均值的。。。
标准差已知:
1.一个简单随机样本由50项组成,样本均值为32,总体标准差为6.
a.求总体均值的90%置信区间;
b.求总体均值的95%置信区间;
c.求总体均值的99%置信区间;
解:a.32±1.645*6/sqrt(50)=32±1.4(30.6,33.4)
b.32±1.960*6/sqrt(50)=32±1.66(30.34,33.66)
c.32±2.576*6/sqrt(50)=32±2.19(29.81,34.19)
2.已知某一总体均值的95%置信区间为(152,160)。如果σ=15,则研究中应选用的样本容
量是多大?边际误差=(160-152)/2=4
1.960*15/sqrt(n)=4
n=(1.96*15/4)≈54
标准差未知与小样本:
例:已知某种灯泡的寿命服从正态分布,现从一批灯泡中抽取16个,测得其实用寿命(单
位:h)如下:15101460
14801470
试建立该批灯泡使用寿命95%的置信区间。
置信区间:(1476.8,1503.2)
查表练习1:
自由度为12,上侧面积为0.025;
自由度为50,下侧面积为0.05;
自由度为30,上侧面积为0.01;
自由度为25,两个t值之间的面积为90%。
2.179-1.6762.457(-1.708,1.708)
练习2:一个简单随机样本由n=54组成,其样本均值为22.5,样本标准差为4.4.
a.求总体均值的90%置信区间
b.求总体均值的95%置信区间
c.求总体均值的99%置信区间
d.当置信度增大时,边际误差和置信区间如何变化?
解:a.t0.05(53)=1.674边际误差=1.674*4.4/sqrt(54)=1.00
90%置信区间为(21.5,23.5)
b.t0.025(53)=2.006边际误差=2.006*4.4/sqrt(54)=1.20
95%置信区间为(21.3,23.7)
c.t0.005(53)=2.672边际误差=2.672*4.4/sqrt(54)=1.60
99%置信区间为(20.9,24.1)
d.当置信度增大时,边际误差和置信区间变大。
3、对美国汽车租赁成本的已有研究发现,租赁一辆中型汽车的成本的均值大约为每天55
美元。假设该项研究的组织者想要进行一项新的调查,对在美国租赁一辆中型汽车的每天成
本的总体均值进行估计。在新的研究的设计中,项目负责人设定置信水平为95%,估计每
天租赁成本的总体均值时的边际误差为2美元,问至少选取多少样本?(根据先前研究的结
果,每天租赁成本的标准差为9.65美元)。
解:边际误差E=295%置信水平=>zα/2=z0.025=1.96
估计总体标准差σ=9.65
样本数n=(zα/2)2*σ2/E2=(1.96)2*9.652/22=89.43≈90
因此,至少应选取90个中型汽车的租赁样本。
练习1:估计一组数据的极差为36,求:a.总体标准差的计划值。
b.在95%的置信度下,当边际误差为3时,应采用多大的样本?
c.在95%的置信度下,当边际误差为2时,应采用多大的样本?
解:1.σ的计划值=极差/4=36/4=9
2.n=(z0.025)2*σ2/E2=(1.96)2*92/32=34.57≈35
至少选取35个样本
3.n=(z0.025)2*σ2/E2=(1.96)2*92/22=77.79≈78
至少选取78个样本
同一置信区间下,边际误差越小,要求的样本数量越多!
总体比率的。。。
例:调查900名女子高尔夫运动员,396名对使用T形球座感到满意。求95%置信水平的
总体比率区间估计。
解:总体比率的点估计=396/900=0.44
区间估计为:
边际误差=0.0324,总体比率的95%置信水平的区间估计为:
(0.4076,0.4724)
练习1:在一个由400人组成的简单随机样本中,有100人的答复为“是”。
A、求总体中回答是的项所占比率的点估计
B、求比率的标准差
C、求总体比率95%置信区间
解:
置信区间:(0.2076,0.2924)
练习2:对611名办公室工作人员就电话接听问题进行一项调查,共有281名办公室工作人
员表示他们从来不必使用语音留言。
a.求所有办公室工作人员中可以接听每一个打入电话的人的总体比率的点估计。
b.在95%置信水平下,边际误差为多少。
c.求所有办公室工作人员中可以接听每一个打入电话的人总体比率的90%置信区间。
解:
习题1:对首次购房者的一项调查发现,家庭收入的年均值为50000美元。假定调查中的样
本由400名首次购房者组成,并假定总体的标准差为20500美元。
a.当置信区间为95%时,研究中的边际误差为多大?
b.求家庭年收入的总体均值的95%置信区间。
解:a.边际误差E=1.96*20500/sqrt(400)=2009;b.下限=50000-2009=47991
上限=50000+2009=52009置信区间(47991,52009)
练习:
解:E=100σ=675n=(1.96)2*6752*/1002=175.03≈176
答:要确保95%置信度,应至少选取176名行政人员。
解:样本均值=(8+10+10+12+15+17)/6=12
样本标准差=sqrt((16+4+4+0+9+25)/5)=3.41
边际误差=t0.025(5)*3.41/sqrt(6)=2.571*3.41/sqrt(6)=3.58
答:置信区间(8.42,15.58)
解:比率点估计=200/369=0.542
边际误差=1.96*sqrt(0.542*(1-0.542)/369)=0.0508
置信区间=0.542±0.0508(0.4912,0.5928)
解a.比率点估计=618/1993=0.3101
b.边际误差=1.96*sqrt(0.3101*(1-0.3101)/1993)=0.0203
置信区间:(0.2898,0.3304)
c.n=(1.96)2*0.3101*(1-0.3101)/0.012≈8219
样本容量至少需要8219不需要,此样本没有这么大。
本文发布于:2022-12-30 08:27:06,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/58563.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
| 留言与评论(共有 0 条评论) |