全国名校应用统计硕士《432统计学》[专业硕士]考研真题及详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2012年华东师范大学432统计学[专业硕士]考研真题及详解

一、单项选择(本题包括1-30题共30个小题,每小题2分,共60分。在每小题给出的四个选项中,只有一个符合题目要求,现在答题纸上写上序号,再把所选项前的字母填在相应的序号后)。

1.以下关于调查的说法,错误的是(  )。

A.全面调查不会产生误差

B.抽样调查具有抽样误差,也可能有非抽样误差

C.正式调查前最好先进行预调查,一方面完善问卷,另一方面可搜集一些数据用于抽样设计

D.实施调查前应先设计调查方案,明确调查目的、内容、抽样方案、调查方法、数据分析方法等

【答案】A

【解析】全面调查是对构成调查对象的所有单位进行逐一的、无一遗漏的调查。误差是测量值与真值的差异,即使是全面调查,也有可能由于仪器、环境等因素的限制,使得测量不能无限精确,产生误差。

2.以下属于非概率抽样方法的是(  )。

A.简单随机抽样

B.分层抽样

C.整群抽样

D.滚雪球抽样

【答案】D

【解析】非概率抽样又称为非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法,其最主要的特征是抽取样本时并不是依据随机原则。非概率抽样主要可分为:判断抽样;方便抽样;自愿样本;配额抽样;滚雪球抽样等。

3.关于数据的预处理,以下说法错误的是(  )。

A.数据的审核是数据预处理的一项内容,对二手数据的审核主要有适用性审核和时效性审核

B.数据的筛选是数据预处理的一项内容,可以筛选出符合条件的数据

C.数据的排序是数据预处理的一项内容。也可以作为数据分析的一项内容

D.数据变换是数据预处理的一项内容,著名的BOX-COX变换可改善方差齐性,但无法改善正态性

【答案】D

【解析】BOX-COX变换一般都可以保证将连续型数据进行成功的正态变换。

4.以下不适用于展示定性数据的图表是(  )。

A.频数频率分布表

B.柱状图

C.环形图

D.直方图

【答案】D

【解析】定性数据包括分类数据和顺序数据,其常用的图表展示方法包括频数分布表、环形图和柱状图等;直方图既要求有纵向的数量,又要求有横向的数量,故无法用来描述定性数据,并且直方图一般用来展示数值型数据,而定性数据一般是非数值型数据。

5.箱线图(box plot)中不包括以下哪个统计量(  )。

A.中位数

B.均值

C.上四分位差

D.变异系数

【答案】D

【解析】利用箱线图无法得到有关标准差的数据,故也就无法得到有关变异系数的数据。箱线图中包含的统计量有中位数、上下四分位数、最小值和最大值。

6.为比较一个班级中男生成绩波动与女生成绩波动的大小,以下哪个统计量最合适(  )。

A.极差

B.标准差

C.四分位差

D.变异系数

【答案】D

【解析】变异系数是各变异指标与其算术平均数的比值。它消除了量纲的影响,使不同计量单位或不同水平、不宜直接比较的现象具有可比性。

7.以下关于参数估计的说法,错误的是(  )。

A.无偏性是指估计量的期望等于被估参数

B.矩估计的原理是建立总体矩与被估参数的关系,然后用样本距去代替总体矩,从而得到估计量

C.均方误差越大,说明估计量的效果越好

D.已知是θ的极大似然估计,则的极大似然估计

【答案】C

【解析】均方误差是指参数估计值与参数真值之差的平方的期望值,记为MSE,它可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据的效果越好。

8.已知总体均值为μ,总体方差为),取样本,得到样本均值和样本方差分别为,以下说法错误的是(  )。

A.的期望值是μ

B.的期望值是

C.的方差是

D.的均方误差是

【答案】C

【解析】根据样本均值的性质知,样本均值的方差为:

9.从一个正态总体(μ和均未知)中抽取一个容量为n()的样本,得到样本均值和样本方差分别为,则的置信度为95%的区间估计是(  )。

A. 

B.

C.

D.

【答案】A

【解析】已知,故总体均值和方差均未知时,的置信度为95%的区间估计是:

10.下列关于假设检验的说法,正确的是(  )。

A.检验的势是当备择假设为真时接受原假设的概率

B.p值越小,数据多提供的否定原假设的证据就越强

C.显著性检验控制了第一类错误概率和第二类错误概率

D.抽取样本,得到p值为0.03,则应拒绝原假设

【答案】B

【解析】A项,检验的势=1-当备择假设为真时接受原假设的概率;C项,显著性水平指的是犯第一类错误的概率,且当样本容量一定时,犯第一类错误的概率和犯第二类错误的概率是呈反方向变动的,故显著性检验无法同时控制第一类错误概率和第二类错误概率;D项,该项中没有给出显著性水平,当α=0.01时,显然无法拒绝原假设。

11.下列关于相关系数r的说法,错误的是(  )。

A.|r|小于等于1

B.|r|越大,表示两个变量的线性相关程度越大

C.r=0表示两个变量无任何关系

D.r<0表示两个变量负线形相关

【答案】C

【解析】当相关系数r=0时,只能表明两个变量没有线性关系,但不能表明两个变量之间无任何关系,可能两者之间存在非线性关系。

12.一元线性回归分析中,方差的估计为(  )。

A.

B.

C.

D.

【答案】D

【解析】方差的无偏估计量为:

其中,为残差平方和

13.因子A有r个水平,每个水平各做m次重复试验,则在单因素方差分析中误差的偏差平方和(SSE)的自由度为(  )。

A.r-1

B.mr-1

C.r(m-1)

D.m(r-1)

【答案】C

【解析】在单因素方差分析中,误差平方和的自由度是n-k,其中n表示的是试验总次数,k表示的是因子的水平个数,则在本题中误差平方和的自由度为mr-r。

14.回归分析中,残差检验的功能不包含以下哪一项?(  )

A.回归模型的显著性检验

B.方差齐性检验

C.独立性检验

D.正态性检验

【答案】A

【解析】在回归分析中,对残差进行检验分析,主要包含的是回归模型残差的正态性检验、回归模型残差的独立性检验和残差的方差齐次性检验。

15.对一个正态总体未知)的均值μ进行假设检验。设

抽取容量为n的样本,得到样本均值和样本标准差分别为,则显著性水平α的拒绝域应为(  )。

A.

B.

C.

D.

【答案】A

【解析】当总体方差未知时,应利用t统计量进行假设检验,且其拒绝域应为:

16.已知的样本方差为,设

的样本方差为(  )。

A.

B.

C.

D.

【答案】D

【解析】的样本方差为:

17.对同一组数据得到几个一元回归模型,则下列说法错误的是(  )。

A.调整的越大的模型效果越好

B.SSE越小的模型效果越好

C.越小的模型效果越好

D.MSE越小的模型效果越好

【答案】C

【解析】表示的即是拟合优度,是指回归直线对观测值的拟合程度,其取值范围是的值越接近于1,说明回归直线对观测者的拟合程度越好;反之,的值越接近于0,说明回归直线对观测值的拟合程度越差。

18.在作假设检验时,若接受原假设可能(  )。

A.犯第一类错误

B.犯第二类错误

C.既犯第一类错误,又犯第二类错误

D.不犯任一类错误

【答案】B

【解析】第一类错误又称“弃真”错误,是指拒绝了实际上成立的原假设;第二类错误又称“取伪”错误,是指接受了实际上不成立的原假设。故当接受原假设时,只可能会犯第二类错误,不会犯第一类错误。

19.有一个时间序列预测模型为

若已知,则=(  )。

A.-1.1

B.-1.0

C.-0.9

D.0.9

【答案】C

【解析】由题知,故有:

20.以下是回归分析的一些内容:(1)回归模型的显著性检验;(2)回归系数的显著性检验;(3)残差检验;(4)回归模型的效果评价。那么,进行回归分析正确的顺序应是(  )。

A.(2)-(1)-(3)-(4)

B.(1)-(2)-(3)-(4)

C.(2)-(1)-(4)-(3)

D.(1)-(2)-(4)-(3)

【答案】B

【解析】进行回归分析时,回归模型的显著性检验应位于回归系数的显著性检验之前,因为如果回归模型没有通过检验,回归系数就算通过检验也没有意义;而残差检验应位于回归模型的效果评价之前,因为残差检验可以用来对回归模型进行效果评价,故本题的正确顺序应为:回归模型的显著性检验→回归系数的显著性检验→残差检验→回归模型的效果评价。

21.对一个正态总体已知)的均值μ进行估计,希望所得的置信度为95%的区间估计的长度不超过20,则所需要的样本量至少为(  )。

A.

B.

C.

D.

【答案】A

【解析】对均值μ进行估计,其置信区间长度为

故当时,

22.有4位同学的某一门课程成绩分别是71,82,87,90,则他们成绩的中位数是(  )。

A.81

B.82.5

C.84.5

D.87

【答案】C

【解析】将该4位同学的课程成绩排序得到:71,82,87,90,故他们成绩的中位数为:

23.设回归模型为,则下列说法错误的是(  )。

A.

B.,其中r是x与y的相关系数

C.若取

建立回归模型,则

D.不一定独立同分布

【答案】C

【解析】A项,由正规方程组可知:;B项,,故有,又,故;C项,

;D项,相互独立但不一定要同分布。

24.关于两个正态总体(方差均未知)的检验

以下说法正确的是(  )。

A.若x与y是非成对数据,则进行方差相等下的均值检验

B.若x与y是非成对数据,则应先进行方差相等的检验,然后根据方差检验的结果进行均值检验

C.若(x,y)是成对数据,只需令z=x-y,然后检验

D.若(x,y)是成对数据,将其看做非成对数据而采用非成对数据的方法进行检验也是恰当的

【答案】B

【解析】对非成对数据,即两个独立样本进行检验时,由于方差未知,可以在两总体方差相等和不等两种不同情况下进行检验,因此在进行均值检验前应先对方差是否相等进行检验。

25.关于单因子方差分析的说法中,错误的是(  )。

A.总的偏差平方和(SST)可分解为因子的偏差平方和(SSA)和误差的偏差平方和(SSE)

B.因子的偏差平方和反应了因子水平之间的差异所导致的偏差

C.误差的偏差平方和反应了随机因素所导致的偏差

D.若因子的偏差平方和大于误差的偏差平方和,则说明因子的影响超越了随机因素的影响水平,即说明该因子显著

【答案】D

【解析】在单因子方差分析中有SST=SSA+SSE。SST反应的了抽样随机抽样误差的大小;SSA反应的是组均值对总均值的偏离程度,也就是因子水平之间的差异所导致的偏差;SSE反映的是所有观测值对组均值的偏离程度,也就是随机因素所导致的偏差。在进行分析时,采用的是F统计量:

而SSA>SSE,并不能够保证F统计量落在拒绝域内,即也就不能够说明因子是显著的。

26.已知,则=(  )。

A.0.24

B.0.30

C.1.00

D.无法确定

【答案】C

【解析】因为,故知当A发生时,B肯定发生,即有

27.从1000米长的一条布匹中随机抽取5米进行检验,若5米中无缺陷才可以接受这条布匹。假设送检布匹平均每米有1个缺陷,则这条布匹被拒收的概率为(  )。

A.0.10

B.0.63

C.0.86

D.0.99

【答案】D

【解析】令X表示该条布匹的缺陷数,则X服从的泊松分布,故这条布匹被拒绝的概率为:

28.设是标准正态分布的α分位数,即设X服从标准正态分布,,则有(  )。

A.

B.

C.

D.

【答案】B

【解析】是标准正态分布,由标准正态分布的性质可知:;当α>0.5时,,故有;当α<0.5时,

29.某产品的寿命服从指数分布Exp(3),平均寿命为3小时,则该产品寿命超过1小时的概率为(  )。

A.0.05

B.0.28

C.0.72

D.0.95

【答案】C

【解析】令X表示该产品的寿命时间,

则有

30.X与Y为两个独立的随机变量,X的方差为1,Y的方差为2,则3Y-2X的方差为(  )。

A.4

B.8

C.14

D.22

【答案】D

【解析】D(3Y-2X)=9D(Y)+4D(X)=9×2+4×1=22。

二、简要回答下列问题(本题包括1-4题共4个小题,每小题10分,共40分)。

1.假设检验中需要使用P值,请说明P值含义,并说明如何使用P值?

答:(1)P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,我们拒绝原假设的理由就越充分。

(2)从研究总体中抽取一个随机样本,计算检验统计量的值和概率P值,即在假设为真的前提下,检验统计量大于或等于实际观测值的概率。如果P<α(α为设定的显著性水平),可认为差别不是由抽样误差引起,拒绝假定的参数取值;如果P>α,不能否定“差别由抽样误差引起”,则结果更倾向于接受假定的参数取值。

P值的意义不表示两组差别的大小;通常P>0.05时,差异无显著意义,不能否认无效假设,但并不能肯定无效假设成立。

2.给出样本的经验分布函数的定义,并计算其期望与方差。

答:(1)样本的经验分布函数是指根据样本构造的概率分布函数,设为来自总体X的一组样本,定义函数:

其中,。则称这个函数为经验分布函数。

(2)由经验分布函数的性质可知:

3.简述充分统计量的定义,样本均值是不是正态总体均值的充分统计量?为什么。

答:(1)如果

即给定统计量T时,的条件概率函数与参数θ无关,且等同于P,则统计量称为充分统计量。

(2)样本均值是正态总体均值的充分统计量,证明如下:

设总体的密度函数为:

则样本的联合密度函数为:

,则有:

由因子分解定理知,是充分统计量。进一步的,是一一对应的,故样本均值是正态总体均值的充分统计量。

4.现分别说说估计量的方差与均方误差的定义,再推导出他们之间的数学关系。

答:(1)方差是各个数据与其算术平均数的离差平方和的平均数,通常以表示,即有

均方误差是指参数估计值与参数真值之差的平方的期望值,记为MSE,即有

(2)

证明如下:

其中,

故有:

三、计算与分析题(本题包括1-3题共3个小题,第1小题和第2小题每题20分,第3小题10分,共50分)。

1.随机抽查了50名小学生的身高数据如下(单位:cm):

117 122 124 129 139 106 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121

请先适当分组,再作出频率直方图,最后根据图形,判断这组数据的分布形状。

解:由题意,将50名小学生的身高数据按照组距为5cm进行分组,得到分组结果如下表:

根据该表,利用Excel软件,得到频率直方图为:

根据频率直方图,可以看出这组数据的分布大致呈正态分布,其中,中位数位于[120,125)区间内。

2.货车的行驶时间与行驶距离的远近及运送货物的次数有关,下表给出的资料是从某运输队收集来的。

根据Excel输出结果,回答后面的几个问题。

(1)将上述表中的数据A,B,C,D,E求出;

(2)您认为用线性回归模型来拟合原始数据是否合适?为什么?

(3)写出Y与之间线性回归方程,并解释各个回归系数的意义;

(4)您认为各个回归系数是不是显著不等于0?为什么?(取显著性水平为0.05)

(5)找出各个回归参数的95%区间估计。

方差分析

解:(1)A值表示的是调整拟和优度,并且:

所以

B表示的是SSE的自由度,则B=9-2=7;

C表示的是检验统计量F的值,则

D表示的是自变量回归系数的t检验统计量的值:

E表示的是自变量的回归系数:E=0.219×3.449=0.755。

(2)用线性回归模型的拟合原始数据是合适的,因为无论是拟合优度还是调整后的拟合优度都较高,说明回归方程对观测值的解释程度较好;且F统计量对应p值为0.02小于0.05,即通过了回归方程的显著性检验。

(3)Y与之间线性回归方程为:

其中,回归系数2.688的意义为:在其他条件不变的情况下,行驶距离每增加一公里,货车的行驶时间平均增加2.688小时;回归系数0.755的意义为:在其他条件不变的情况下,运送货物的次数每增加一次,货车的行驶时间平均增加0.755小时。

(4)当显著性水平为0.05时,各个回归系数显著不等于0,因为各个回归系数的t统计量的P值均小于显著性水平0.05(两个回归系数的t统计量的P值分别为0.012和0.011)。

(5)由题意知,的回归系数的置信度为95%的置信区间为(0.816,4.560);的回归系数的置信度为95%的置信区间为(0.237,1.271)。

3.在寿命数据分析中,记X为寿命,假设X的分布函数为,密度函数为,在研究中通常还引入生存函数

及失效率函数

请导出用失效率函数表示的关系式。

解:对失效率函数两边求积分,得到:

将上式化简,得到失效率函数表示的为:

失效率函数表示的为:

失效率函数表示的为: