(共90张PPT)
v
第3讲 统计与成对数据的分析
专题五 概率与统计
考情分析
高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.
考点一 统计图表
考点二 回归分析
考点三 独立性检验
专题强化练
内容索引
统计图表
考点一
核心提炼
2.在频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数.
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
(1)(多选)(2024·湖北八市联考)某中学举行党史知识竞赛,对全校参赛的1 000名学生的得分情况进行了统计,把得分数据按照[50,60),[60,70),[70,80),[80,90),[90,100]分成5组,绘制了如图所示的频率分布直方图,根据图中信息,下列说法正确的是
A.图中的x值为0.020
B.这组数据的极差为50
C.得分在80分及以上的人数为400
D.这组数据的平均数的估计值为77
√
例1
√
√
由(0.005+x+0.035+0.030+0.010)×10=1,解得x=0.020,故选项A正确;
频率分布直方图无法看出这组数据的最大值和最小值,故选项B不正确;
得分在80分及以上的人数的频率为
(0.030+0.010)×10=0.4,
故人数为1 000×0.4=400,故选项C正确;
这组数据的平均数的估计值为55×0.05+65
×0.2+75×0.35+85×0.3+95×0.1=77.
故选项D正确.
(2)(多选)(2024·张家口模拟)2021年11月10日,中国和美国在联合国气候变化格拉斯哥大会期间发布《中美关于在21世纪20年代强化气候行动的格拉斯哥联合宣言》(以下简称《宣言》).承诺继续共同努力,并与各方一道,加强《巴黎协定》的实施,双方计划建立“21世纪20年代强化气候行动工作组”,推动两国气候变化
合作和多边进程.为响应《宣言》要求,
某地区统计了2020年该地区一次能源消
费结构比例,并规划了2030年一次能源
消费结构比例,如图所示,
经测算,预估该地区2030年一次能源消费量将增长为2020年的2.5倍,预计该地区
A.2030年煤的消费量相对2020年减少了
B.2030年天然气的消费量是2020年的5倍
C.2030年石油的消费量相对2020年不变
D.2030年水、核、风能的消费量是2020年
的7.5倍
√
√
设2020年该地区一次能源消费总量为a,
则2020年煤的消费量为0.6a,
规划2030年煤的消费量为a×2.5×0.3=
0.75a>0.6a,故A错误;
2020年天然气的消费量为0.1a,规划2030年天然气的消费量为a×2.5× 0.2=0.5a=5×0.1a,故B正确;
2020年石油的消费量为0.2a,规划2030年石油的消费量为a×2.5×0.2=0.5a>0.2a,故C错误;
2020年水、核、风能的消费量为0.1a,规划2030年水、核、风能的消费量为a×2.5×0.3=0.75a=7.5×0.1a,故D正确.
(1)对于给出的统计图表,一定要结合问题背景理解图表意义.
(2)频率分布直方图中纵坐标不要误以为是频率.
易错提醒
(1)(多选)(2024·潍坊模拟)某市共青团委统计了甲、乙两名同学近十期“青年大学习”答题得分情况,整理成如图所示的茎叶图.则下列说法中正确的是
A.甲得分的30%分位数是31
B.乙得分的众数是48
C.甲得分的中位数小于乙得分的中位数
D.甲得分的极差等于乙得分的极差
跟踪演练1
√
√
√
对于A,甲得分从小到大排列为27,28,31,39,42,
45,55,55,58,66,而10×30%=3,
所以甲得分的30%分位数是35,A不正确;
对于B,乙的得分中有两个48,其余分数值均只
有一个,因此,乙得分的众数是48,B正确;
对于C,甲得分的中位数是43.5,乙得分的中位数是45,C正确;
对于D,甲得分的极差、乙得分的极差都是39,D正确.
(2)(多选)(2024·广东六校联考)2021年1月11日,
国家统计局发布2020年全国居民消费价格指
数(CPI)相关数据,指出2020年较好地实现了
“居民消费价格涨幅3.5%左右”的物价调控
目标.2020年全国居民消费价格涨跌幅如折线
图所示,则
A.从环比看,CPI由2020年11月份的环比下降0.6%在12月份转为环比上涨0.7%
B.2020年1月份CPI同比增长最多
C.2020年CPI环比上涨的月份数比下跌的月份数多
D.2020年全年CPI同比平均比2019年上涨约2.5%
√
√
√
由图中环比折线图可以看出,2020年
11月份的环比为-0.6%,12月份的环比
为+0.7%,
所以CPI由2020年11月份的环比下降
0.6%在12月份转为环比上涨0.7%,故选项A正确;
由同比折线图可以看出,2020年1月份的CPI同比增长5.4%,全年最高,故选项B正确;
从环比折线图可以看出,2020年CPI环比上涨的月份数为6,环比下跌的月份数也为6,故选项C错误;
由同比折线图可知,2020年全年CPI同比平均比2019年上涨 ×(5.4%+5.2%+4.3%+3.3%+2.4%+2.5%+2.7%+2.4%+1.7%+0.5%-0.5%+0.2%)≈2.5%,选项D正确.
回归分析
考点二
求经验回归方程的步骤
(1)依据成对样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).
核心提炼
(3)写出经验回归方程.
(2024·湖南六校联考)为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为2024年7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的2024年7月10日至7月14日时段中的相关数据,这5天的第x天到该电商平台专营店购物的人数y(单位:万人)的数据如下表:
例2
日期 7月10日 7月11日 7月12日 7月13日 7月14日
第x天 1 2 3 4 5
人数y(单位:万人) 75 84 93 98 100
(1)依据表中的统计数据,请判断该电商平台直播的第x天与到该电商平台专营店购物的人数y(单位:万人)是否具有较高的线性相关程度?(注:若0.3<|r|<0.75,则线性相关程度一般,若|r|>0.75,则线性相关程度较高,计算r时精确度为0.01)
日期 7月10日 7月11日 7月12日 7月13日 7月14日
第x天 1 2 3 4 5
人数y(单位:万人) 75 84 93 98 100
所以该电商平台直播的第x天与到该电商平台专营店购物的人数y具有较高的线性相关程度.
(2)求购买人数y与直播的第x天的经验回归方程;用样本估计总体,请预测从2024年7月10日起的第38天到该专营店购物的人数(单位:万人).
日期 7月10日 7月11日 7月12日 7月13日 7月14日
第x天 1 2 3 4 5
人数y(单位:万人) 75 84 93 98 100
由(1)知可用一元线性回归模型拟合购买人数y与直播的第x天之间的关系.
预测从2024年7月10日起的第38天到该专营店购物的人数为314万人.
易错提醒
(3)利用样本相关系数判断相关性强弱时,看|r|的大小,而不是r的大小.
(4)区分样本相关系数r与决定系数R2.
(5)通过经验回归方程求的都是估计值,而不是真实值.
(1)(多选)(2024·汕头模拟)如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法正确的是
A.样本相关系数r变大
B.残差平方和变大
C.决定系数R2变小
D.解释变量x与响应变量y的相关性变强
跟踪演练2
√
√
由散点图知,去掉离群点D后,x与y的相关性变强,且为正相关,
所以样本相关系数r的值变大,决定系数R2的值变大,残差平方和变小.
C.若该产品价格为35元/kg,则日需求量大约为3.2 kg
D.第四个样本点对应的残差为-0.4
(2)(多选)(2024·重庆模拟)某种产品的价格x(单位:元/kg)与需求量y(单位:kg)之间的对应数据如下表所示:
√
√
x 10 15 20 25 30
y 11 10 8 6 5
√
对A,B,由表中的数据可知,
所以日需求量大约为3.2 kg,所以C选项正确;
x 10 15 20 25 30
y 11 10 8 6 5
x 10 15 20 25 30
y 11 10 8 6 5
独立性检验
考点三
核心提炼
独立性检验的一般步骤
(1)根据样本数据列2×2列联表.
(3)查表比较χ2与临界值的大小关系,作统计判断.χ2越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
(2024·济宁模拟)为提高教育教学质量,越来越多的高中学校采用寄宿制的封闭管理模式.某校对高一新生是否适应寄宿生活做调查,从高一新生中随机抽取了100人,其中男生占总人数的40%,且只有20%的男生表示自己不适应寄宿生活,女生中不适应寄宿生活的人数占总人数的32%.学校为了考查学生对寄宿生活适应与否是否与性别有关,构建了如下2×2列联表:
例3
不适应寄宿生活 适应寄宿生活 合计
男生
女生
合计
(1)请将2×2列联表补充完整,并依据小概率值α=0.010的独立性检验,是否可以推断适应寄宿生活与否与性别有关;
不适应寄宿生活 适应寄宿生活 合计
男生
女生
合计
补充列联表如下:
不适应寄宿生活 适应寄宿生活 合计
男生 8 32 40
女生 32 28 60
合计 40 60 100
零假设为H0:适应寄宿生活与否与性别无关.
根据列联表中的数据得,
根据小概率值α=0.010的独立性检验,推断H0不成立,可以推断适应寄宿生活与否与性别有关联.
(2)从男生中以“是否适应寄宿生活”为标准采用分层随机抽样的方法抽取10人,再从这10人中随机抽取2人,若所选2名学生中的“不适应寄宿生活”人数为X,求随机变量X的分布列及均值.
不适应寄宿生活 适应寄宿生活 合计
男生 8 32 40
女生 32 28 60
合计 40 60 100
α 0.025 0.010 0.001
xα 5.024 6.635 10.828
由题意知,抽取的10人中,有2人不适应寄宿生活,有8人适应寄宿生活,
故随机变量X的取值可以是0,1,2,
随机变量X的分布列为
(1)χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能性.
(2)在犯错误的概率不大于0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.
易错提醒
(2024·河北联考)《2021新锐品牌数字化运营白皮书》中,我国提出了新锐品牌的概念,全称是国货新锐品牌.对这个名称进行拆解:国货、新、锐.新有两个层面,一是针对企业本身,指2011年后成立的品牌.二是针对消费者本身,开拓了新的消费场景(需求),形成了细分化的品类.锐:是在短期内实现大大高于传统品牌的爆发式增长,并且占据了一定的消费者心智.如图是11月份中国某信息网发布的我国A市2021年上半年新锐品牌人群用户(新锐品牌人群,指在指定周期内浏览新锐品牌相关内容以及商品详情页的人群)性别分析数据.A市从购买家电类新锐品牌人群中随机调查了100位男性顾客和100位女性顾客,统计出每位顾客购买家电消费金额,根据这些数据得到如图所示的频数分布表:
跟踪演练3
消费金额(元) [0,100] (100,1 000] (1 000,5 000] (5 000,10 000] (10 000,+∞)
女性顾客人数 50 30 10 6 4
男性顾客人数 20 40 24 10 6
(1)若以我国A市2021年上半年新锐品牌人群用户性别分析数据作为A市抽取新锐品牌人群性别概率,从A市新锐品牌人群中随机抽取四人,X为四人中男性的人数,求X的概率分布列和均值;
若以我国A市2021年上半年新锐品牌人群用户性别比例数据作为A市抽取新锐品牌人群性别概率,则A市新锐品牌人群中随机抽取一人为男性的概率为75%,为女性的概率为25%,且X服从二项分布,
X的所有可能取值为0,1,2,3,4,
得X分布列为
(2)根据A市统计购买家电消费金额数据频数分布表,完成下列2×2列联表,并依据小概率值α=0.010的独立性检验,分析购买家电类新锐品牌人群消费金额千元以上是否与性别有关?
不超千元 千元以上 合计
女性顾客
男性顾客
合计
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
根据所给数据,可得2×2列联表:
不超千元 千元以上 合计
女性顾客 80 20 100
男性顾客 60 40 100
合计 140 60 200
零假设为H0:购买家电类新锐品牌人群消费金额千元以上与性别无关.
根据小概率值α=0.010的独立性检验,推断H0不成立,即认为购买家电类新锐品牌人群消费金额千元以上与性别有关.
专题强化练
一、单项选择题
1.某公司2024年1月至7月空调销售完成情况如图,如7月份销售量是190台,若月份为x,销售量为y,由统计数据(xi,yi)(i=1,2,…,7)得到散点图,下面四个经验回归方程类型中最适合作为销售量y和月份x的经验回归方程类型的是
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
由散点图分布可知,散点图分布在一个二次函数的图象附近,因此,最适合作为销售量y和月份x的经验回归方程类型的是y=a+bx2.
2.(2024·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则
A.讲座前问卷答题的正确率的中位数
小于70%
B.讲座后问卷答题的正确率的平均数
大于85%
C.讲座前问卷答题的正确率的标准差
小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
对于B,讲座后问卷答题的正确率
分别是80%,85%,85%,85%,85%,90%,90%,95%,100%,100%,其平均数显然大于85%,所以B正确;
对于C,由题图可知,讲座前问卷答题的正确率波动较大,讲座后问卷答题的正确率波动较小,所以讲座前问卷答题的正确率的标准差大于讲座后问卷答题的正确率的标准差,所以C错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
对于D,讲座前问卷答题的正确率的极差是95%-60%=35%,讲座后问卷答题的正确率的极差是100%-80%=20%,所以讲座前问卷答题的正确率的极差大于讲座后问卷答题的正确率的极差,所以D错误.故选B.
3.(2024·济南模拟)某学校于3月12日组织师生举行植树活动,购买垂柳、银杏、侧柏、海桐四种树苗共计1 200棵,比例如图所示.高一、高二、高三报名参加植树活动的人数分别为600,400,200,若每种
树苗均按各年级报名人数的比例进行分配,则高三年级
应分得侧柏的数量为
A.34 B.46 C.50 D.70
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
由扇形统计图知,购买的1 200棵树苗中,侧柏的数量为1 200×25%=300,
依题意知,高一、高二、高三分到的侧柏的棵数比为600∶400∶200=3∶2∶1,
4.(2024·运城模拟)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型y=
(其中e为自然对数的底数)拟合,设z=ln y,其变换后得到一组数据:
由表可得经验回归方程z=0.2x+a,则
当x=60时,蝗虫的产卵量y的估计值为
A.e6 B.10 C.6 D.e10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
x 20 23 25 27 30
z 2 2.4 3 3 4.6
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
由表格数据知,
x 20 23 25 27 30
z 2 2.4 3 3 4.6
∴z=0.2x-2,即ln y=0.2x-2,
∴y=e0.2x-2,∴当x=60时,y=e10,
故当x=60时,蝗虫的产卵量y的估计值为e10.
5.(2024·绵阳模拟)某车间从生产的一批产品中随机抽取了1 000个零件进行一项质量指标的检测,整理检测结果得此项质量指标的频率分布直方图如图所示,则下列结论错误的是
A.a=0.005
B.估计这批产品该项质量指标的众数为45
C.估计这批产品该项质量指标的中位数为60
D.从这批产品中随机选取1个零件,其质量指标在[50,70)的概率约为0.5
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
所以众数为45,故B正确;
质量指标大于等于60的有两组,
频率之和为(0.020+0.010)×10=0.3<0.5,
所以60不是中位数,故C错误;
由于质量指标在[50,70)之间的频率之和为(0.03+0.02)×10=0.5,
可以近似认为从这批产品中随机选取1个零件,其质量指标在[50,70)的概率约为0.5,故D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(a+0.035+0.030+0.020+0.010)×10=1,解得a=0.005,故A正确;
6.为庆祝中国共产主义青年团成立100周年,某校甲、乙两个班共70人(甲班40人,乙班30人)参加了共产主义青年团知识竞赛,甲班的平均成绩为77分,方差为123,乙班的平均成绩为70分,方差为130,则甲、乙两班全部同学的成绩的方差为
A.74 B.128 C.138 D.136
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
二、多项选择题
7.(2024·益阳调研)据新华社报道,“十三五”以来,中国建成了全球规模最大的信息通信网络,光纤宽带用户占比从2015年底的56%提升至94%,行政村通光纤和4G的比例均超过了99%;中国移动网络速率在全球139个国家和地区中排名第4位;在5G网络方面,中国已
初步建成全球最大规模的5G移动网络.如图是某科研机构对我国2023-2029年5G用户规模和年增长率发展的预测图,则下列结论正确的是
2023-2029年中国5G用户规模和年增长率发展预测图
A.2023-2029年,我国5G用户规模逐年增加
B.2023-2028年,我国5G用户规模后3年的
方差小于前3年的方差
C.2023-2026年,我国5G用户规模的年增长
率逐年下降
D.2023-2029年,我国5G用户规模年增长最多的是2025年
1
2
3
4
5
6
7
8
9
10
11
12
13
14
√
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
由题图可知,2023-2029年,我国5G用
户规模逐年增加,故A正确;
2023-2028年,我国5G用户规模前3年
比后3年的分散,方差比后3年的大,故
B正确;
2023-2026年,我国5G用户规模的年增长率逐年下降,故C正确;
2023-2029年,我国5G用户规模年增长最多的是2024年,增加了35 978.6万人,而2025年我国5G用户规模增加了27 317.4万人,所以D错误.
B.借阅量4.9,5.1,5.5,5.7,5.8的75%分位数为5.7
C.y与x的样本相关系数r>0
D.2023年的借阅量一定不少于6.12万册
8.(2024·菏泽模拟)某地为响应“扶贫必扶智,扶智就是扶知识、扶技术、扶方法”的号召,建立农业科技图书馆,供农民免费借阅,收集了近5年借阅数据如下表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
√
√
年份 2018 2019 2020 2021 2024
年份代码x 1 2 3 4 5
年借阅量y(万册) 4.9 5.1 5.5 5.7 5.8
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
对于B,因为5×75%=3.75,所以借阅量4.9,5.1,5.5,5.7,5.8的75%分位数为5.7,所以B正确;
对于C,因为0.24>0,所以y与x的样本相关系数r>0,所以C正确;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
9.(2024·山东联考)为了解高中生选科时是否选物理与数学成绩之间的关系,某教研机构随机抽取了50名高中生,通过问卷调查,得到以下数据:
选物理 不选物理
数学成绩优异 20 7
数学成绩一般 10 13
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
A.依据小概率值α=0.05的独立性检验认为是否选择物理与数学成绩有关
B.在犯错误的概率不超过0.01的前提下,认为是否选择物理与数学成绩
无关
C.95%的数学成绩优异的同学选择物理
D.若表格中的所有数据都扩大为原来的10倍,在相同条件下,结论不会
发生变化
1
2
3
4
5
6
7
8
9
10
11
12
13
14
选物理 不选物理
数学成绩优异 20 7
数学成绩一般 10 13
√
√
因为4.844>3.841=x0.05,所以依据小概率值α=0.05的独立性检验认为是否选择物理与数学成绩有关;
因为4.844<6.635=x0.01,所以在犯错误的概率不超过0.01的前提下,认为是否选择物理与数学成绩无关;
若表中的数据都扩大为原来的10倍,
又48.44>10.828,故结论发生变化.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
10.(2024·连云港模拟)一组数据x1,x2,…,x10是公差为-1的等差数列,若去掉首末两项x1,x10后,则
A.平均数变大 B.中位数没变
C.方差变小 D.极差没变
1
2
3
4
5
6
7
8
9
10
11
12
13
14
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
由题意可知,对于选项A,
去掉x1,x10后的平均数为
即平均数不变,故选项A错误;
对于选项C,设公差为d,则原数据的方差为
去掉x1,x10后的方差为
1
2
3
4
5
6
7
8
9
10
11
12
13
14
即方差变小,故选项C正确;
对于选项D,原数据的极差为x1-x10=-9d=9,
去掉x1,x10后的极差为x2-x9=-7d=7,
即极差变小,故选项D错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
三、填空题
11.某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集4组对应数据(x,y),如表所示.(残差=观测值-预测值)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
x 3 4 5 6
y 2.5 3 4 m
根据表中数据,得出y关于x的经验回归方程为 据此计算出在样本(4,3)处的残差为-0.15,则表中m的值为_____.
4.5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
因为样本(4,3)处的残差为-0.15,
12.某校抽取100名学生做体能测试,其中百米测试中,成绩全部介于13秒与18秒之间,将测试结果分成五组:第一组[13,14),第二组[14,15),…,第五组[17,18].如图是按上述分组方法得到的频率分布直方图,若成绩低于a即为优秀,如果优秀的人数为14,则a的估计值是_______.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
14.5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
测试结果位于[13,14)的频率为0.06<0.14,
测试结果位于[13,15)的频率为0.06+0.16>0.14,
所以a∈(14,15),
由题意可得0.06+(a-14)×0.16=0.14,
解得a=14.5.
四、解答题
13.(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
由表格中的数据易得
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
所以认为新设备生产产品的该项指标的均值较旧设备有显著提高.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
14.(2024·广东大联考)中国在第75届联合国大会上承诺,将采取更加有力的政策和措施,力争于2030年之前使二氧化碳的排放达到峰值,努力争取2060年之前实现碳中和(简称“双碳目标”),此举展现了我国应对气候变化的坚定决心,预示着中国经济结构和经济社会运转方式将产生深刻变革,极大促进我国产业链的清洁化和绿色化.新能源汽车、电动汽车是重要的战略新兴产业,对于实现“双碳目标”具有重要的作用.为了解某一地区纯电动汽车销售情况,一机构根据统计数据,用最小二乘法得到电动汽车销量y(单位:万台)关于x(年份)的经验回归方程为 =4.7x-
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(1)求y与x的样本相关系数r,并据此判断电动汽车销量y与年份x的相关程度;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
样本相关系数为
故y与x线性相关程度较强.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(2)该机构还调查了该地区90位购车车主的性别与购车种类情况,得到的数据如下表:
购买非电动车 购买电动车 总计
男性 39 6 45
女性 30 15 45
总计 69 21 90
依据小概率值α=0.025的独立性检验,能否认为购买电动汽车与车主性别有关;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
零假设为H0:购买电动汽车与车主性别无关.
根据小概率值α=0.025的独立性检验,推断H0不成立,即认为购买电动汽车与车主性别有关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(3)在购买电动汽车的车主中按照性别进行分层随机抽样抽取7人,再从这7人中随机抽取3人,记这3人中,男性的人数为X,求X的分布列和均值.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
α 0.10 0.05 0.025 0.010 0.001
xα 2.706 3.841 5.024 6.635 10.828
故X的分布列为
1
2
3
4
5
6
7
8
9
10
11
12
13
14
本课结束2025年高考数学一轮复习-专题五-第3讲-统计与成对数据的分析-专项训练
一、基本技能练
1.乡村旅游是以旅游度假为宗旨,以村庄野外为空间,以人文无干扰、生态无破坏为特色的村野旅游形式.某机构随机调查了某地区喜欢乡村旅游的1 000名游客,这些游客都是在A,B,C,D,E这5个平台中的一个预订出游的(每名游客只选择1个平台),得到一个不完整的统计图,如图所示.已知在E平台预订出游的人数是在B平台预订出游的人数的1.75倍,则估计1 000名游客中在B平台预订出游的人数为( )
A.100 B.120
C.210 D.300
2.通过统计已知某校有教职工560人,其中女职工240人,现按性别用分层随机抽样的方法从该校教职工中抽取28人,则抽取的男职工人数与抽取的女职工人数之差是( )
A.2 B.4
C.6 D.8
3.中国营养学会把走路称为“最简单、最优良的锻炼方式”,它不仅可以帮助减肥,还可以增强心肺功能、血管弹性、肌肉力量等.下图为甲、乙两人在同一星期内日步数的折线统计图:
则下列结论中不正确的是( )
A.这一星期内甲的日步数的中位数为11 600
B.这一星期内乙的日步数的30%分位数是7 030
C.这一星期内甲的日步数的平均值大于乙
D.这一星期内甲的日步数的方差大于乙
4.(多选)为学习贯彻党的十九届六中全会精神,某单位组织“筑梦新时代”主题演讲活动.9位评委对某位选手的具体评分如下:7.8,8.4,8.5,8.6,8.8,8.9,9.5,9.7,9.9,则下列说法正确的是( )
A.9位评委的评分的极差是2.1
B.9位评委的评分的中位数是8.8
C.9位评委的评分的平均分是8.8
D.9位评委的评分的方差是
5.(多选)下列说法正确的是( )
A.将一组数据中的每一个数据都加上同一个常数后,方差不变
B.设具有线性相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越强
C.在一个2×2列联表中,由计算得χ2的值,则χ2的值越小,判断两个变量有关的把握越大
D.若X~N(1,σ2),P(X>2)=0.2,则P(0<X<1)=0.3
6.(多选)某中学为了解高三男生的体能情况,通过随机抽样,获得了200名男生的100米体能测试成绩(单位:秒),将数据按照[11.5,12),[12,12.5),…,[15.5,16]分成9组,制成了如图所示的频率分布直方图.
由直方图推断,下列选项正确的是( )
A.直方图中a的值为0.38
B.由直方图估计本校高三男生100米体能测试成绩的众数为13.75秒
C.由直方图估计本校高三男生100米体能测试成绩不大于13秒的人数为54
D.由直方图估计本校高三男生100米体能测试成绩的中位数为13.7秒
7.某校高二年级共有学生1 000人,其中男生480人,按性别进行分层,用分层随机抽样的方法从高二全体学生中抽出一个容量为100的样本,若样本按比例分配,则女生应抽取的人数为________.
8.某设备的使用年限与所支出的维修费用的统计数据如下表:
使用年限x(单位:年) 2 3 4 5 6
维修费用y(单位:万元) 1.5 4.5 5.5 6.5 7.0
根据上表可得经验回归方程为=1.3x+,据此模型预测,若使用年限为14年,估计维修费约为________万元.
9.某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的50名学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.
附:χ2=.
α 0.05 0.025 0.010 0.001
xα 3.841 5.024 6.635 10.828
10.中国于2022年2月在北京成功地举办了第二十四届冬季奥林匹克运动会.共赴冰雪之约,共享冬奥机遇,“冰雪经济”逐渐升温,“带动三亿人参与冰雪运动”已从愿景变为现实,中国各地滑雪场的数量也由2015年的1 255家增加到2021年的3 100家.下面是2016年至2021年中国滑雪场新增数量和滑雪场类型统计图,下列说法中正确的序号是________.
①2021年中国滑雪场产业中大众娱乐型滑雪场占比最高
②2016年至2021年中国滑雪场数量逐年上升
③2016年至2021年中国滑雪场新增数量逐年增加
④2021年业余玩家型滑雪场比2020年大众娱乐型滑雪场数量多
11.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
机床 等级 产口质量 合计
一级品 二级品
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)根据小概率值α=0.01的独立性检验,分析甲机床生产的产品质量与乙机床生产的产品质量有无差异.
附:χ2=.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
12.2022年新冠病毒奥密克戎毒株全球蔓延,传染性更强、潜伏期更短、防控难度更大.为落实动态清零政策下的常态化防疫,某高中学校开展了每周的核酸抽检工作:周一至周五,每天中午13:00开始,当天安排450位师生核酸检测,五天时间全员覆盖.
(1)该校教职工有410人,高二学生有620人,高三学生有610人,
①用分层随机抽样的方法,求高一学生每天抽检人数;
②高一年级共15个班,该年级每天抽检的学生有两种安排方案,方案一:集中来自部分班级;方案二:分散来自所有班级.
你认为哪种方案更合理,并给出理由.
(2)学校开展核酸抽检的第一周,周一至周五核酸抽检用时记录如下:
第x天 1 2 3 4 5
用时y(小时) 1.2 1.2 1.1 1.0 1.0
①计算变量x和y的相关系数r(精确到0.01),并说明两变量线性相关的强弱;
②根据①中的计算结果,判定变量x和y是正相关,还是负相关,并给出可能的原因.
参考数据和公式:≈3.16,相关系数r=.
二、创新拓展练
13.(多选)下表是某生活超市2022年第四季度各区域营业收入占比和净利润占比统计表:
生鲜区 熟食区 乳制品区 日用品区 其它区
营业收入占比 48.6% 15.8% 20.1% 10.8% 4.7%
净利润占比 65.8% -4.3% 16.5% 20.2% 1.8%
该生活超市本季度的总营业利润率为32.5%(营业利润率是净利润占营业收入的百分比),则( )
A.本季度此生活超市营业收入最低的是熟食区
B.本季度此生活超市的营业净利润超过一半来自生鲜区
C.本季度此生活超市营业利润率最高的是日用品区
D.本季度此生活超市生鲜区的营业利润率超过50%
14.(多选)某校计划在课外活动中新增攀岩项目,为了了解学生喜欢攀岩和性别是否有关,面向学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制了等高条形图,如图,则( )
参考数据:
α 0.025 0.010 0.005
xα 5.024 6.635 7.879
A.参加调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多
B.参加调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参加调查的男、女生人数均为100,则能根据小概率值α=0.01的独立性检验,推断喜欢攀岩和性别有关
D.无论参加调查的男、女生人数为多少,都能根据小概率值α=0.01的独立性检验,推断喜欢攀岩和性别有关
15.(多选)为了了解市民对各种垃圾进行分类的情况,加强垃圾分类宣传,指导市民尽快掌握垃圾分类的方法,某市垃圾处理厂连续8周对有害垃圾错误分类情况进行了调查.经整理绘制了有害垃圾错误分类重量累积统计图,如图所示,图中横轴表示时间(单位:周),纵轴表示有害垃圾错误分类的累积重量(单位:吨).根据统计图分析,则下列说法正确的是( )
A.当x∈[0,2)时有害垃圾错误分类的重量加速增长
B.当x∈[2,4)时有害垃圾错误分类的重量匀速增长
C.当x∈[4,6)时有害垃圾错误分类的重量相对于当x∈[2,4)时增长了30%
D.当x∈[6,8]时有害垃圾错误分类的重量相对于当x∈[0,2)时减少了1.2吨
16.2020年1月15日教育部制定出台了《关于在部分高校开展基础学科招生改革试点工作的意见》(也称“强基计划”),《意见》宣布:2020年起不再组织开展高校自主招生工作,改为实行“强基计划”,“强基计划”主要选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生,据悉“强基计划”的校考由试点高校自主命题,校考中通过笔试后才能进入面试环节.
(1)为了更好地服务高三学生,某研究机构对随机抽取的5名高三学生的记忆力x和判断力y进行统计分析,得到下表:
x 6 8 9 10 12
y 2 3 4 5 6
请用相关系数说明该组数据中y与x之间的关系可以用线性回归模型进行拟合,并求出y关于x的经验回归方程=+x.
(2)现有甲、乙两所大学的笔试环节都设有三门考试科目,且每门科目是否通过相互独立,若某考生报考甲大学,每门笔试科目通过的概率均为,该考生报考乙大学,每门笔试科目通过的概率依次为m,,,其中0<m<1,根据规定每名考生只能报考“强基计划”的一所试点高校,若以笔试过程中通过科目数的数学期望为依据作出决策,求该考生更希望通过乙大学笔试时m的取值范围.
参考公式:
①线性相关系数
r=,一般地,相关系数r的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱.
②对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程=x+的斜率和截距的最小二乘估计公式分别为=,=-.
参考答案与解析
一、基本技能练
1.答案 B
解析 设在B平台预订出游的人数与在E平台预订出游的人数分别为x,y,
则y=1.75x,且=1-20%-17%-30%=33%,
所以x+y=330,所以x=120.
2.答案 B
解析 某校有教职工560人,其中女职工240人,则男职工320人,
故男女职工人数之比为=,
现按性别用分层随机抽样方法从该校教职工中抽取28人,
则抽取的男职工人数与抽取的女职工人数之比为,
则抽取的男职工人数为28×=16,
抽取的女职工人数为28×=12,
故抽取的男职工人数与抽取的女职工人数之差是16-12=4.
故选B.
3.答案 B
解析 对于A,甲的日步数从小到大排列为:2 435,7 965,9 500,11 600,12 700,16 000,16 800.
中位数是11 600.故A正确;
对于B,因为7×30%=2.1,所以乙的日步数的30%分位数是从小到大的第3个数,为10 060.故B不正确;
对于C,甲=(16 000+7 965+12 700+2 435+16 800+9 500+11 600)=11 000,
乙=(14 200+12 300+7 030+12 970+5 340+11 600+10 060)=10 500.
所以甲>乙.故C正确;
对于D,甲的极端值,对方差的影响大,所以甲日步数的方差大于乙.故D正确.
4.答案 ABD
解析 9位评委的评分的极差是9.9-7.8=2.1,故A正确;
9位评委的评分的中位数是8.8,故B正确;
9位评委的评分的平均分是
==8.9,故C错误;
9位评委的评分的方差为s2=×[(7.8-8.9)2+(8.4-8.9)2+(8.5-8.9)2+(8.6-8.9)2+(8.8-8.9)2+(8.9-8.9)2+(9.5-8.9)2+(9.7-8.9)2+(9.9-8.9)2]==,故D正确.故选ABD.
5.答案 AD
解析 对于A,方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差不变,故A正确;
对于B,具有线性相关关系的两个变量x,y的相关系数为r,则|r|越接近于1,x和y之间的线性相关程度越强,故B错误;
对于C,在一个2×2列联表中,由计算得χ2的值,则χ2的值越大,判断两个变量有关的把握越大,故C错误;
对于D,∵X~N(1,σ2),
∴P(0<X<1)=P(1<X<2)=P(X>1)-P(X>2)=0.5-0.2=0.3,故D正确.
故选AD.
6.答案 BC
解析 对A,由于(0.08+0.16+0.3+a+0.52+0.3+0.12+0.08+0.04)×0.5=1,所以a=0.4,所以选项A错误;
对B,由频率分布直方图可知,[13.5,14)这一组对应的小长方形最高,所以估计众数为=13.75(秒),所以选项B正确;
对C,由频率分布直方图知不大于13秒为前三组,前三组的人数为(0.08+0.16+0.3)×0.5×200=54,所以选项C正确;
对D,由选项A可知,a=0.4,所以前四组的频率为(0.08+0.16+0.3+0.4)×0.5=0.47,前五组的频率为(0.08+0.16+0.3+0.4+0.52)×0.5=0.73,所以中位数在[13.5,14)这一组,设中位数为x秒,则(x-13.5)×0.52=0.5-0.47,解得x≈13.56,所以选项D错误.综上,选BC.
7.答案 52
解析 某校高二年级有学生1 000人,男生480人,则女生520人,
设女生应抽取x人,则=,
∴x=52.
故女生应抽取52人.
8.答案 18
解析 ==4,
==5,
则样本点中心为(4,5),代入经验回归方程可得=5-1.3×4=-0.2,=1.3x-0.2,
当x=14时,=1.3×14-0.2=18(万元),即估计使用14年时,维修费用是18万元.
9.答案 0.025
解析 零假设为H0:能否一次考试通过与是否集中培训无关.
由题意,得到列联表如下:
培训方式 合计
集中 分散
一次考过 45 30 75
一次未考过 10 20 30
合计 55 50 105
χ2=≈6.109>5.024=x0.025.
根据小概率值α=0.025的独立性检验推断H0不成立,
即认为“能否一次考试通过与是否集中培训有关”,此推断犯错的概率不超过0.025.
10.答案 ①②④
解析 由扇形统计图可知,2021年中国滑雪场中大众娱乐型滑雪场占比最高,故①正确;
由柱状图可知,2016年至2021年中国滑雪场数量逐年上升,故②正确;
由柱状图可知,2020年比2019年下降了,故③不正确;
2021年,业余玩家型滑雪场的数量为3 100×38%=1 178(家),2020年,大众娱乐型滑雪场的数量为(3 100-385)×40%=1 086(家),故④正确.
11.解 (1)因为甲机床生产的200件产品中有150件一级品,
所以甲机床生产的产品中一级品的频率为=,
因为乙机床生产的200件产品中有120件一级品,
所以乙机床生产的产品中一级品的频率为=.
(2)零假设为H0:
甲机床的产品质量与乙机床的产品质量没有差异.
根据2×2列联表中的数据,
得χ2==≈10.256,
因为10.256>6.635=x0.01,
所以推断H0不成立,
即认为甲机床的产品质量与乙机床的产品质量有差异.
12..解 (1)①高一学生每天抽检人数为=122(人);
②方案二更合理,因为新冠病毒奥密克戎毒株传染性更强、潜伏期更短,分散抽检可以全面检测年级中每班学生的状况,更有利于防控筛查工作.
(2)①=(1+2+3+4+5)=3,=(1.2+1.2+1.1+1+1)=1.1,
所以 (xi-)(yi-)=-2×0.1+(-1)×0.1+1×(-0.1)+2×(-0.1)=-0.6,
(xi-)2=4+1+1+4=10, (yi-)2=0.01+0.01+0.01+0.01=0.04.
变量x和y的相关系数为r=
==≈-0.95,
因为|r|>0.75,可知两变量线性相关性很强;
②由r<0可知变量x和y是负相关,可能的原因:随着抽检工作的开展,学校相关管理协调工作效率提高,因此用时缩短.
二、创新拓展练
13.答案 BC
解析 对于A,由图表可知,此生活超市营业收入最低的是其它区,故选项A错误;
对于B,因为生鲜区的净利润占比65.8%>50%,则本季度此生活超市的营业净利润超过一半来自生鲜区,故选项B正确;
对于C,生活超市生鲜区的营业利润率为32.5%×≈44%,
生活超市熟食区的营业利润率为32.5%×≈-8.8%,
生活超市乳制品区的营业利润率为32.5%×≈26.7%,
生活超市日用品区的营业利润率为32.5%×≈60.8%,
生活超市其它区的营业利润率为32.5%×≈12.4%,
所以本季度此生活超市营业利润率最高的是日用品区,故选项C正确;
对于D,由上面计算可知,生活超市生鲜区的营业利润率为32.5%×≈44%<50%,故选项D错误.
故选BC.
14.答案 AC
解析 因为参加调查的男、女生人数相同,
且男生中喜欢攀岩的占80%,女生中喜欢攀岩的占30%,
所以参加调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,故A正确;
参加调查的女生中喜欢攀岩的人数占30%,所以不喜欢攀岩的人数占70%,
所以参加调查的女生中不喜欢攀岩的人数比喜欢攀岩的人数多,故B不正确;
若参加调查的男、女生人数都为100,则可得2×2列联表:
性别 对攀岩的态度 合计
喜欢 不喜欢
男 80 20 100
女 30 70 100
合计 110 90 200
所以χ2==≈50.505>6.635=x0.01,
所以能根据小概率值α=0.01的独立性检验,推断喜欢攀岩和性别有关,故C正确;
若不确定参加调查的男、女生人数,则无法确定能否根据小概率值α=0.01的独立性检验,推断喜欢攀岩和性别有关,故D不正确.
15.答案 AB
解析 由统计图可知,第2周增长数量比第1周增长数量明显要多,所以是加速增长,所以A正确;
当x∈[2,4)时图象是线段,所以是匀速增长,所以B正确;
当x∈[4,6)时增长数量比当x∈[2,4)时增长数量要少,所以是减少,所以C错误;
当x∈[0,2)时共增长2.4吨,当x∈[6,8]时共增长0.6吨,所以减少了1.8吨,所以D错误.
16.解 (1)根据表格中的数据,
可得==9,
==4,
xiyi=12+24+36+50+72=194,
x=36+64+81+100+144=425,
y=4+9+16+25+36=90,
可得相关系数r==≈0.99>0.95,
故y与x之间的关系可用线性回归模型进行拟合.
由===0.7,
可得=4-9×0.7=-2.3.
所以经验回归方程为=-2.3+0.7x.
(2)通过甲大学的考试科目数X~B,
则E(X)=3×=,
设通过乙大学的考试科目数为Y,
则Y可能的取值为0,1,2,3,
则P(Y=0)=(1-m)=(1-m),
P(Y=1)=m+(1-m)××+(1-m)××=-m,
P(Y=2)=m××+m××+(1-m)××=+m,
P(Y=3)=m××=m,
所以E(Y)=-m+2+3×m=+m,
因为该考生更希望通过乙大学的笔试,
所以E(Y)>E(X),
即+m>,
又由0<m<1,解得<m<1,
即该考生更希望通过乙大学的笔试时m的取值范围为.
