第一讲 统计与统计案例
1. 随机抽样
抽样方法主要有简单随机抽样、系统抽样、分层抽样三种,这三种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值. 2. 总体分布的估计
在研究总体时,常用样本的频率分布去估计总体分布.一般地,样本容量越大,这种估计就越精确. 3. 线性回归方程
(1)对n个样本数据(x1,y1),(x2,y2),…,(xn,yn),
^
^
^
其线性回归方程为y =b x+a ,其中
i=1
xiyi-nx yx2i-n x
n
n
^
b =
,a =y-b x,x、y分别是{xi}、{yi}的平均数.
2
^^
i=1
(2)相关系数
r>0,表明两个变量正相关;r<0,表明两个变量负相关;|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量之间几乎不存在线性相关关系;|r|>0.75时,认为两变量有很强的线性相关关系. 4. 独立性检测的一般步骤
(1)根据样本数据列出2×2列联表,假设两个变量无关系;
nad-bc22
(2)根据公式K=计算K2的值;
a+bc+da+cb+d(3)比较K2与临界值的大小关系作统计推断.
1. (2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840
人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 答案 B
B.12
C.13
D.14
解析 由
840
=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为42
720-480240
==12(人). 2020
2. (2013·福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:
[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为
( )
A.588 答案 B
解析 少于60分的学生人数600×(0.05+0.15)=120(人), ∴不少于60分的学生人数为480人.
3. (2013·重庆)以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:
分)
甲组 x 7
9 2 4
0 1 2
9 5 4
乙组 y
8
B.480
C.450
D.120
已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( ) A.2,5 答案 C
解析 由于甲组中有5个数,比中位数小的有两个数为9,12,比中位数大的也有两个数9+15+10+y+18+2424,27,所以10+x=15,x=5.又因=16.8,所以y=8,故选C.
54. (2012·湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根
^
B.5,5 C.5,8 D.8,8
据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是 ...
( )
A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(x,y)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
答案 D
解析 由于线性回归方程中x的系数为0.85, 因此y与x具有正的线性相关关系,故A正确.
又线性回归方程必过样本点中心(x,y),因此B正确.
由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确. 当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确. 5. (2013·江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:
运动员 甲 乙 第1次 87 89 第2次 91 90 第3次 90 91 第4次 89 88 第5次 93 92 则成绩较为稳定(方差较小)的那位运动员成绩的方差为________. 答案 2 解析 xx
乙=
甲=
1
(87+91+90+89+93)=90, 5
1
(89+90+91+88+92)=90, 5
122222
s2甲=[(87-90)+(91-90)+(90-90)+(89-90)+(93-90)]=4, 5
122222
s2乙=[(89-90)+(90-90)+(91-90)+(88-90)+(92-90)]=2. 5
题型一 抽样方法
例1 (1)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为
1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为 A.7
B.9
( )
C.10 D.15
(2)某学校高一、高二、高三三个年级共有学生3 500人,其中高三学生数是高一学生数
1
的两倍,高二学生数比高一学生数多300人,现在按的抽样比用分层抽样的方法抽取
100样本,则应抽取高一学生数为 A.8
B.11
( )
C.16 D.10
审题破题 系统抽样的特点是“等距”,分层抽样最重要的是“比例”. 答案 (1)C (2)A
解析 (1)由系统抽样的特点知:抽取号码的间隔为
960
=30,抽取的号码依次为32
9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公
差为30的等差数列,设有n项,显然有729=459+(n-1)×30,解得n=10.所以做问卷B的有10人.
xxxx
(2)若设高三学生数为x,则高一学生数为,高二学生数为+300,所以有x+++300
2222=3 500, 解得x=1 600,
800
故高一学生数为800,因此应抽取高一学生数为=8.
100
反思归纳 (1)在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要
N
分成几个组,则分段间隔即为(N为样本容量),首先确定在第一组中抽取的个体的号码
n数,再从后面的每组中按规则抽取每个个体.
(2)在分层抽样中,要求各层在样本中和总体中所占比例相同.
变式训练1 (1)要完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、
95户低收入家庭中选出100户调查社会购买力的某项指标;②某中学的15名艺术特长生中选出3人调查学习负担情况.宜采用的抽样方法依次为 A.①简单随机抽样法,②系统抽样法 B.①分层抽样法,②简单随机抽样法 C.①系统抽样法,②分层抽样法 D.①②都用分层抽样法 答案 B
(2)防疫站对学生进行身体健康调查,采用分层抽样法抽取,某中学高三有学生1 600人,抽取一个容量为200的样本,已知女生比男生少抽10人,则该校的女生人数应该有________. 答案 760
200解析 设该校的女生为x人,男生为(1 600-x)人,则按照分层抽样,各层的比例为
1 6001 600-x1 600-x1xx
=,所以女生抽取,男生抽取,所以+10=,解得x=760. 88888题型二 用样本估计总体
例2 (2012·广东)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩
分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].
( )
(1)求图中a的值;
(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;
(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数. 分数段 x∶y [50,60) 1∶1 [60,70) 2∶1 [70,80) 3∶4 [80,90) 4∶5 审题破题 (1)根据样本频率之和为1,求出参数a的值;(2)根据频率分布直方图和平均值的计算公式,求出样本平均值;(3)由直方图可计算语文成绩在每分段上的频数,再根据语文和数学成绩在同一段上的人数比,便可计算数学成绩在[50,90)之间的人数,进而求解.
解 (1)由频率分布直方图知(2a+0.02+0.03+0.04)×10=1,解得a=0.005.
(2)由频率分布直方图知这100名学生语文成绩的平均分为55×0.005×10+65×0.04×10+75×0.03×10+85×0.02×10+95×0.005×10=73(分).
(3)由频率分布直方图知语文成绩在[50,60),[60,70),[70,80),[80,90)各分数段的人数依次为0.005×10×100=5,
0.04×10×100=40,0.03×10×100=30,0.02×10×100=20.
14
由题中给出的比例关系知数学成绩在上述各分数段的人数依次为5,40×=20,30×=
23
5
40,20×=25.
4故数学成绩在[50,90)之外的人数为 100-(5+20+40+25)=10(人).
反思归纳 频率分布直方图直观形象地表示了样本的频率分布,从这个直方图上可以求出样本数据在各个组的频率分布.根据频率分布直方图估计样本(或者总体)的平均值时,一般是采取组中值乘以各组的频率的方法.方差和标准差都是用来描述一组数据波动情况的特征数,常用来比较两组数据的波动大小.方差较大的波动较大,方差较小的波动较小.
变式训练2 (1)从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统
计数据用茎叶图表示(如图所示).设甲乙两组数据的平均数分别为x甲,x乙,中位数分别为m甲,m乙,则
( )
A.x甲 B.x甲 甲< x乙,甲的中位数为20,乙的中位数为29,即m甲<m乙. (2)某校举行了由全部学生参加的校园安全知识考试,从中抽出60名学生,将其成绩分成六段[40,50),[50,60),…,[90,100)后,画出如图所示的频率分布直方图.观察图形的信息,回答下列问题:估计这次考试的及格率(60分及以上为及格)为________;平均分为________. 答案 75% 71 解析 及格的各组的频率是(0.015+0.03+0.025+0.005)×10=0.75,即及格率约为75%;样本的均值为45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71,以这个分数估计总体的分数即得总体的平均分数约为71. 题型三 统计案例 例3 (1)某产品的广告费用x与销售额y的统计数据如下表: 广告费用x(万元) 销售额y(万元) ^^^4 49 ^2 26 3 39 5 54 根据上表可得线性回归方程y =b x+a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 A.63.6万元 C.67.7万元 ( ) B.65.5万元 D.72.0万元 (2)为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表: A班 B班 总计 附:参考公式及数据 ①卡方统计量: nad-bc22 K=(其中n=a+b+c+d); a+bc+da+cb+d②独立性检验的临界值表: P(K2≥k0) 0.050 0.010 优秀 14 7 21 非优秀 6 13 19 总计 20 20 40 k0 则下列说法正确的是 3.841 6.635 ( ) A.有99%的把握认为环保知识测试成绩与专业有关 B.有99%的把握认为环保知识测试成绩与专业无关 C.有95%的把握认为环保知识测试成绩与专业有关 D.有95%的把握认为环保知识测试成绩与专业无关 审题破题 (1)可以通过回归直线过(x,y)求出a ,然后进行预报;(2)计算K2,然后和临界值比较. 答案 (1)B (2)C 4+2+3+57 解析 (1)∵x==, 42y= ^ ^ 49+26+39+54 =42, 4 ^ ^ ^ ^^ 7 又y =b x+a 必过(x,y),∴42=×9.4+a ,∴a =9.1. 2 ∴线性回归方程为y =9.4x+9.1. ^ ∴当x=6时,y =9.4×6+9.1=65.5(万元). 40×14×13-7×62 (2)K=≈4.912, 20×20×21×19 2 3.841 反思归纳 (1)线性回归分析中,回归直线过(x,y)是解决问题的核心;(2)独立性检验问题要计算卡方值,和临界值比较,说明有多大把握认为两者有关系. 变式训练3 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进 行试销,得到如下数据: 单价x(元) 销量y(件) ^^^8 90 ^8.2 84 8.4 83 ^8.6 80 ^8.8 75 9 68 (1)求线性回归方程y=bx+a,其中b=-20,a=y-bx; (2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 1 解 (1)由于x=(8+8.2+8.4+8.6+8.8+9)=8.5, 6 ^ 1 y=(90+84+83+80+75+68)=80,又b=-20, 6 ^ ^ 所以a=y-bx=80+20×8.5=250, ^ 从而线性回归方程为y=-20x+250. (2)设工厂获得的利润为L元,依题意得 L=x(-20x+250)-4(-20x+250) =-20x2+330x-1 000 =-20(x-8.25)2+361.25. 当且仅当x=8.25时,L取得最大值. 故当单价定为8.25元时,工厂可获得最大利润. 典例 (12分)为调查某市学生百米运动成绩,从该市学生中按照男女生比例随机抽取50名 学生进行百米测试,学习成绩全部都介于13秒到18秒之间,将测试结果按如下方式分成五组,第一组[13,14),第二组[14,15),…,第五组[17,18],如图是按上述分组方法得到的频率分布直方图. (1)设m,n表示样本中两个学生的百米测试成绩,已知m,n∈[13,14)∪[17,18],求事件“|m-n|>2”的概率; (2)根据有关规定,成绩小于16秒为达标. 如果男女生使用相同的达标标准,则男女生达标情况如附表: 性别 是否达标 达标 不达标 合计 男 a=24 c=______ 女 b=______ d=12 合计 n=50 根据上表数据,能否在犯错误的概率不超过0.01的前提下认为“体育达标与性别有关”?若有,你能否提出一个更好的解决方法来? 附: P(K2≥k) k 规范解答 解 (1)从频率分布直方图中可以看出,成绩在[13,14)的人数为50×0.04=2(人),设为a,b; 成绩在[17,18]的人数为50×(1-0.38-0.34-0.18-0.04)=3(人),设为A,B,C.[2分] m,n∈[13,14)有ab一种情况;m,n∈[17,18]时有AB,AC,BC三种情况;m,n分别在 0.050 3.841 0.010 6.635 0.001 10.828 [13,14)和[17,18]时有aA,aB,aC,bA,bB,bC六种情况,所有基本事件总数为10.[4分] 而事件“|m-n|>2”由6个基本事件即aA,aB,aC,bA,bB,bC组成. 63 所以P(|m-n|>2)==.[6分] 105(2)依题意得到相应的2×2列联表如下: 性别 是否达标 达标 不达标 合计 2 50×24×12-6×8K2=≈8.333. 32×18×30×20 男 a=24 c=8 32 女 b=6 d=12 18 合计 30 20 n=50 [9分] 由于8.333>6.635,故在犯错误的概率不超过0.01的前提下认为“体育达标与性别有关”. 故可以根据男女生性别划分达标的标准.[12分] 评分细则 (1)计算出成绩在两个区间[13,14),[17,18]内的人数给1分,标记给1分;(2)列举基本事件不全扣1分;(3)卡方值计算正确得1分,和临界值比较得1分,写最后结论得1分. 阅卷老师提醒 (1)频率分布直方图和概率的结合是高考考查的热点,解题时要审清题意,把握频率分布直方图所体现的频率分布或数字特征;(2)解决独立性检验问题,要先得到列联表,准确代入公式计算. 1. 某校共有学生2 000名,各年级男、女生人数如表所示.已知在全校学生中随机抽取1 名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为 女生 男生 A.24 答案 C 解析 由2 000×0.19=380知二年级的学生人数为380+370=750,由于一年级的学生人数为373+377=750,于是三年级的学生人数为2 000-750-750=500,那么三年级 B.18 二年级 x 370 ( ) 一年级 373 377 三年级 y z D.12 C.16 64 应抽取的人数为500×=16(人). 2 000 2. (2012·山东)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样 本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的下列数字特征对应相同的是 A.众数 答案 D 解析 对样本中每个数据都加上一个非零常数时不改变样本的方差和标准差,众数、中位数、平均数都发生改变. 3. 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验, 测得数据如下表所示: 零件数x(个) 加工时间y(分) ^^^ ( ) B.平均数 C.中位数 D.标准差 10 62 ^20 68 ^30 75 40 81 50 89 60 95 70 102 80 108 ( ) 设回归方程为y=bx+a,则点(a,b)在直线x+45y-10=0的 A.左上方 C.右上方 答案 C B.左下方 D.右下方 11 解析 依题意得,x=×(10+20+30+40+50+60+70+80)=45,y=×(62+68 88+75+81+89+95+102+108)=85.注意到题中的每一组点(x,y)均位于直线x+45y-10 ^ ^ =0的右上方,因此点(a,b )必位于直线x+45y-10=0的右上方,故选C. 4. 高三(1)班共有56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为 4的样本.已知学号为6,34,48的同学在样本中,那么还有一个同学的学号应为________. 答案 20 解析 由题意可知,可将学号依次为1,2,3,…,56的56名同学分成4组,每组14人,抽取的样本中,若将他们的学号按从小到大的顺序排列,彼此之间会相差14.故还有一个同学的学号应为6+14=20. 5. (2013·湖北)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350 度之间,频率分布直方图如图所示. (1)直方图中x的值为 __________; (2)在这些用户中,用电量落在区间[100,250)内的户数为________. 答案 (1)0.004 4 (2)70 解析 (1)(0.002 4+0.003 6+0.006 0+x+0.002 4+0.001 2)×50=1, ∴x=0.004 4. (2)(0.003 6+0.004 4+0.006 0)×50×100=70. 6. (2013·辽宁)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把 每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________. 答案 10 解析 设5个班级中参加的人数分别为x1,x2,x3,x4,x5, x1+x2+x3+x4+x5 则由题意知=7, 5 (x1-7)2+(x2-7)2+(x3-7)2+(x4-7)2+(x5-7)2=20, 五个整数的平方和为20,则必为0+1+1+9+9=20, 由|x-7|=3可得x=10或x=4. 由|x-7|=1可得x=8或x=6. 由上可知参加的人数分别为4,6,7,8,10,故最大值为10. 专题限时规范训练 一、选择题 1. (2013·安徽)某班级有50名学生,其中有30名男生和20名女生,随机询问了该班五名男 生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93.下列说法一定正确的是 A.这种抽样方法是一种分层抽样 B.这种抽样方法是一种系统抽样 C.这五名男生成绩的方差大于这五名女生成绩的方差 D.该班男生成绩的平均数小于该班女生成绩的平均数 答案 C 解析 x 男= ( ) 1 (86+94+88+92+90)=90, 5 x女= 1 (88+93+93+88+93)=91, 5 122222 s2男=[(86-90)+(94-90)+(88-90)+(92-90)+(90-90)]=8, 5 122222 s2女=[(88-91)+(93-91)+(93-91)+(88-91)+(93-91)]=6. 5 2. (2013·湖南)某学校有男、女学生各500名,为了解男、女学生在学习兴趣与业余爱好方 面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是 ( ) A.抽签法 B.随机数法 D.分层抽样法 C.系统抽样法 答案 D 解析 总体(100名学生)中的个体(男、女学生)有明显差异,应采用分层抽样. 3. 为了解一片大约10 000株树木的生长情况,随机测量了其中100株树木的底部周长(单 位:cm).根据所得数据画出的样本频率分布直方图如图所示,那么在这片树木中,底部周长小于110 cm的树木大约有 ( ) A.3 000株 C.7 000株 答案 C 解析 底部周长小于110 cm的频率为(0.01+0.02+0.04)×10=0.7,所以底部周长小于110 cm的树木大约有10 000×0.7=7 000株,故选C. 4. 如图是2013年歌手大奖赛中,七位评委为甲、乙两名选手打出的分数的茎叶图(其中m 为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1、a2,则一定有 ( ) B.6 000株 D.8 000株 A.a1>a2 B.a2>a1 D.a1,a2大小与m的值有关 C.a1=a2 答案 B 解析 去掉一个最高分和一个最低分后,甲选手叶上的数字之和是20,乙选手叶上的数 字之和是25,故a2>a1. 5. 假设学生初一和初二数学成绩是线性相关的.若10个学生初一(x)和初二(y)的数学分数 如下: x y ^ 74 76 71 75 72 71 68 70 76 76 73 79 67 65 70 77 65 62 74 72 ( ) 则初一和初二数学分数间的线性回归方程是 A.y=1.218 2x-14.192 ^ B.y=14.192x+1.218 2 ^ C.y=1.218 2x+14.192 ^ D.y=14.192x-1.218 2 答案 A 解析 因为x ^ =71,x2i=50 520, i=1 10 y=72.3,xiyi=51 467, i=1 10 51 467-10×71×72.3 所以,b =≈1.218 2. 50 520-10×712^ a =72.3-1.218 2×71=-14.192 2, ^ 线性回归方程是:y =1.218 2x-14.192 2. 6. (2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取 5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 7816 3204 A.08 答案 D 解析 从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01. 7. 在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体 感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是 A.甲地:总体均值为3,中位数为4 B.乙地:总体均值为1,总体方差大于0 C.丙地:中位数为2,众数为3 D.丁地:总体均值为2,总体方差为3 答案 D 解析 逐项验证,由0,0,0,2,4,4,4,4,4,8可知,A错;由0,0,0,0,0,0,0,0,2,8可知,B错;由 ( ) 6572 9234 0802 4935 6314 8200 0702 3623 4369 4869 9728 6938 0198 7481 ( ) B.07 C.02 D.01 0,0,1,1,2,2,3,3,3,8可知,C错.D中x=2. x1-22+x2-22+…+x10-22 =3. 10即(x1-2)2+(x2-2)2+…+(x10-2)2=30. 显然(xi-2)2≤30(i=1,2,…,10),xi∈N*即xi≤7. 8. 有一个容量为200的样本,其频率分布直方图如图所示.根据样本的频率分布直方图估 计,样本数据落在区间[10,12)内的频数为 ( ) A.18 答案 B 解析 由0.02+0.05+0.15+0.19=0.41, ∴落在区间[2,10)内的频率为0.41×2=0.82. ∴落在区间[10,12)内的频率为1-0.82=0.18. ∴样本数据落在区间[10,12)内的频数为0.18×200=36. 二、填空题 9. (2013·山东改编)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数 的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示: B.36 C.54 D.72 则7个剩余分数的方差为________. 36答案 7 87+94+90+91+90+90+x+911 解析 由题意知=91,解得x=4.所以s2=[(87-91)2 77+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2] 1 =(16+9+1+0+1+9+0) 736=. 7 10.如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图, 其中平均气温的范围是[20.5,26.5],样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11, 则样本中平均气温不低于25.5 ℃的城市个数为________. 答案 9 解析 最左边两个矩形面积之和为0.10×1+0.12×1=0.22,总城市数为11÷0.22=50,最右面矩形面积为0.18×1=0.18,50×0.18=9. 11.甲、乙两人在10天中每天加工零件的个数用茎叶图表示如下图,中间一列的数字表示零 件个数的十位数,两边的数字表示零件个数的个位数,则这10天甲、乙两人日加工零件的平均数分别为________和________. 答案 24 23 1 解析 x甲=×(19+18+20+21+23+22+20+31+31+35)=24. 101 x乙=×(19+17+11+21+24+22+24+30+32+30)=23. 1012.以下四个命题,其中正确的是________. ①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样; ②两个随机变量相关性越强,则相关系数的绝对值越接近于1 ; ^ ^ ③在线性回归方程y =0.2x+12中,当解释变量x每增加一个单位时,预报变量y 平均增加0.2个单位; ④对分类变量X与Y,它们的随机变量K2(χ2)的值越小,“X与Y有关系”的把握程度越大. 答案 ②③ 解析 ①是系统抽样;对于④,随机变量K2(χ2)的值越小,说明两个变量有关系的把握程度越小. 三、解答题 13.(2013·安徽)为调查甲、乙两校高三年级学生某次联考的数学成绩情况,用简单随机抽样, 从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如下: (1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格); (2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x1,x2,估计x1-x的值. 解 (1)设甲校高三年级学生总人数为n,由已知条件 30 =0.05,则n=600. n 在甲校高三年级抽取的30名学生中成绩在60分及60分以上的人数为25,因此甲校高 255 三年级这次联考的及格率大约是==83.3%. 306 1 042 (2)x1=[(7+13+24+26+22+2)+40+50×4+60×9+70×9+80×5+90×2]÷30=; 15 2 069 x2=[(5+14+17+33+20)+40+50×3+60×10+70×10+80×5+90]÷30=. 30 2 0842 0691 x1-x2=-=. 3030214.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视 观众,相关的数据如下表所示: 20至40岁 大于40岁 总计 文艺节目 40 15 55 新闻节目 18 27 45 总计 58 42 100 2 (1)由表中数据直观分析,收看新闻节目的观众是否与年龄有关? (2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名? (3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率. 解 (1)因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,所以,经直观分析,收看新闻节目的观众与年龄是有关的. (2)从题中所给条件可以看出收看新闻节目的共45人,随机抽取5人,则抽样比为1 故大于40岁的观众应抽取27×=3(人). 9 (3)抽取的5名观众中大于40岁的有3人,在20岁到40岁的有2人,记大于40岁的人为a1,a2,a3,20至40岁的人为b1,b2,则从5人中抽取2人的基本事件有(a1,a2),(a1,a3),(a2,a3),(b1,b2),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2)共10 51=,459 63 个,其中恰有1人为20至40岁的有6个,故所求概率为=. 105 因篇幅问题不能全部显示,请点此查看更多更全内容