![全国名校应用统计硕士《432统计学》[专业硕士]考研真题及详解](https://wfqqreader-1252317822.image.myqcloud.com/cover/539/27050539/b_27050539.jpg)
2.华东师范大学432统计学[专业硕士]考研真题及详解
2011年华东师范大学432统计学[专业硕士]考研真题及详解
一、单项选择题(本题包括1~30题共30个小题,每小题2分,共60分。在每小题给出的四个选项中,只有一个符合题目要求,先在答题纸上写上序号,再把所选项前的字母填在相应的序号后)。
1.抽签属于( )。
A.简单随机抽样
B.分层抽样
C.整群抽样
D.非概率抽样
【答案】A
【解析】一般的,设一个总体有N个个体,若逐个从这个总体中抽取N个样本,且每次抽取时各个个体被抽到的概率相等,则该抽样方法为简单随机抽样。抽签就是按照这种规则进行抽样,属于简单随机抽样。
2.下列说法中错误的是( )。
A.简单随机抽样是一种概率抽样
B.采用概率抽样方法,不可计算和控制抽样误差
C.采用概率抽样方法,则每个样本都有事先确定的被抽到的概率(入样概率)
D.采用概率抽样方法,则由入样概率确定随机抽的样本
【答案】B
【解析】在概率抽样方法中,抽样误差不可避免,但是抽样误差可以根据有关资料事先加以计算,并且通过一定的途径来控制其范围。
3.对数据进行标准化变换是一种重要的数据预处理方法,其计算公式是用某一原始数据减去这组数据的( ),再除以这组数据的标准差。
A.均值
B.中位数
C.众数
D.标准差
【答案】A
【解析】数据的标准化一般采用Z标准化,将原始数据减掉样本均值再除以这组数据的标准差,使得标准化后的均值为0,方差为1。
4.为探索一组定量数据的分布形态,下列图形中最适合的是( )。
A.饼图
B.柱状图
C.直方图
D.雷达图
【答案】C
【解析】直方图是一种常用的数量型数据的图形描述方式。由先前已汇总出的频数分布、相对频数分布或百分数频数分布等资料可绘制直方图。直方图的一个最重要的应用是提供了分布形态的信息。
5.以下关于回归模型假定的检验的说法中,错误的是( )。
A.对正态性的假定进行检验,应通过检验残差的正态性来进行
B.对独立性的假定进行检验,应通过检验残差的独立性来进行
C.对方差齐性的假定进行检验,应通过检验残差的方差齐性来进行
D.无法通过残差来检验回归函数线性的假定
【答案】D
【解析】回归函数线性的假定检验仍然建立在方差分析的基础上,常采用F统计量,会用到残差平方和,故可以通过残差检验回归函数线性性的假定。
6.在单因子方差分析中,若在显著性水平α=0.05下拒绝了原假设,则表明( )。
A.在显著性水平α=0.05下,因子各个水平的均值全不相等
B.在显著性水平α=0.05下,因子各个水平的均值不全相等
C.在显著性水平α=0.05下,因子中至少有两个水平的均值相等
D.在显著性水平α=0.05下,因子不显著
【答案】B
【解析】方差分析就是要检验多个总体(水平)的均值是否相等。原假设是各个水平的均值全部相等。因此拒绝原假设表明在该显著性水平下,因子各个水平均值不全相等。
7.设有5人获得了某项劳务收入,分别为300元、350元、400元、500元、600元,他们收入的中位数等于( )。
A.375元
B.400元
C.430元
D.450元
【答案】B
【解析】中位数是指把所有观察值高低排序后位于正中间的数。
8.下列统计量中,不能用于描述数据差异情况的统计量是( )。
A.极差
B.标准差
C.方差
D.众数
【答案】D
【解析】标准差和方差都反映数据的波动情况,极差指一组数据中最大值与最小值之差,也可以反映数据差异情况,众数则反映数据的集中趋势,不能用来描述数据的差异情况。
9.设准妈妈的怀孕期(单位:天)服从正态分布N(μ,162)。调查了100个准妈妈的怀孕期,得到的样本均值为266天。设μγ表示标准正态分布的概率为γ的下分位数。那么,参数μ的置信度为95%的区间估计为( )。
A.
B.
C.
D.
【答案】B
【解析】给定显著性水平α下,总体均值μ在1-α的置信水平下的置信区间为:

10.对一个方差已知的正态总体均值进行区间估计,采用常用的区间估计公式,下列说法正确的是( )。
A.若给定置信度,样本量越大区间会越短
B.若给定置信度,样本量越大区间会越长
C.若给定置信度,样本量变大,区间长度保持不变
D.若给定置信度,样本量的变化与区间长度的变化没有规律
【答案】A
【解析】给定显著性水平α下,总体均值μ在1-α的置信水平下的置信区间为:

由置信区间的计算公式可知,样本量越大,区间越短。
11.以下关于显著性检验的说法,错误的是( )。
A.若做出拒绝原假设的判断,这是有充分证据的
B.若做出接受原假设的判断,这是有充分证据的
C.显著性检验有保护原假设的作用
D.不能轻易拒绝的假设一般应设置为原假设
【答案】B
【解析】显著性检验是将犯第一类错误的概率控制在规定的范围内,即使得犯弃真错误的概率小于显著性水平,原假设一般处于被保护地位,证据足够充分才可以拒绝原假设。
12.设某一批零件的直径服从正态分布N(20,22),若直径在20加减4之间为合格品,则该批零件的合格频率约为( )。
A.68%
B.90%
C.95%
D.99%
【答案】C
【解析】利用正态分布的3σ原则,

13.设有两个正态总体N(μ1,1)和N(μ2,1),为对假设检验问题H0:μ1=μ2,H1:μ1>μ2进行检验,从两个总体中各抽取了样本容量为n的样本,得样本均值分别为和
,则检验的拒绝域形式应为( )。
A.(c为常数)
B.(c为常数)
C.(c为常数)
D.(c为常数)
【答案】B
【解析】此问题为右单侧假设检验,检验的拒绝域为:

而,所以拒绝域形式为:

14.在单因子方差分析中,组内平方和反映的是( )。
A.全部观测值的误差
B.因子各个水平的样本均值之间的误差
C.因子各个水平内部的样本观测值之间的误差
D.因子各个水平之间和各个水平内部的误差和
【答案】C
【解析】组内平方和记为SSE。它是每个水平或组的各样本数据与其组均值的误差平方和,反映了每个样本各观测值的离散状况,因此称为组内平方和。该平方和反映了随机误差的大小。
15.某研究小组分析身高与体重的相关关系,计算了一个相关系数。但后来发现因测体重的秤不准,每位测量对象的体重数据偏大了1公斤,因此需要进行校正从而使数据准确。那么,相对于之前的相关系数,采用校正后的体重数据来计算的相关系数会( )。
A.减小
B.增大
C.不变
D.无法判断
【答案】C
【解析】样本相关系数为:

校正后的取值都减小了1,均值也减小了1,因此
的值不变,相关系数值也不变。
16.下列关于假设检验中P值的说法正确的是( )。
A.P值等于第一类错误概率
B.P值等于第二类错误概率
C.当P值大于显著性水平α,应拒绝原假设
D.P值表示原假设为真的假设下,所得到样本结果会像实际观测结果那么极端或更极端的概率
【答案】D
【解析】P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。
17.以下关于多重共线性的描述,错误的是( )。
A.若存在多重共线性,回归模型的效果不会受到影响
B.若存在多重共线性,则表明某些自变量之间存在一定的线性相关关系
C.若存在多重共线性,则可能导致增减自变量时回归系数的估计量变化很大
D.若存在多重共线性,则可能导致某些回归系数不显著
【答案】A
【解析】当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。当存在多重共线性时,对回归系数的解释将是危险的:首先,变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;其次,多重共线性可能对参数估计值的正负号产生影响。
18.已知某种商品的销售量存在周期性,其时间序列预测模型为

设X1=30,X2=10,X3=40,X4=20,X5=50,则=( )。
A.19
B.41
C.46
D.52
【答案】A
【解析】

19.以下关于时间序列的说法,错误的是( )。
A.对存在周期变化的数据,采用时间序列模型进行描述是比较合适的
B.对随时间推移而逐渐增长或衰减的数据,采用时间序列模型进行描述是比较合适的
C.某些情况下,可采用时间序列模型来解决回归模型的多重共线性问题
D.无法利用时间序列模型进行预测
【答案】D
【解析】时间序列模型的一个重要应用就是预测,如天气预报。对于存在趋势项,周期性的数据,可以用时间序列模型进行拟合分析。
20.下列哪些统计量不易受到极端值的影响( )。
A.均值
B.方差
C.中位数
D.标准差
【答案】C
【解析】均值、方差和标准差的计算都会使用到所有数据,故会受到极端值大小的影响,而中位数是指把所有观察值高低排序后位于正中间的数,不易受极端值影响。
21.常采用五数概括(即最小值、下四分位数、中位数、上四分位数、最大值)描述这一组数据的情况,并由此做出箱线图。下列说法错误的是( )。
A.可通过箱线图大致了解分布的中心位置
B.可通过箱线图大致了解分布的离散程度
C.可通过箱线图大致了解分布的形态
D.可通过箱线图,无法大致比较不同总体分布的差异
【答案】D
【解析】箱线图根据无数概括做出,故通过箱线图中的中位数可以大致了解分布的中心位置,通过极差和四分间距可以了解分布的离散程度;通过上下四分位数和中位数可以了解分布的形态;通过观查不同总体的箱线图,可以大致比较不同总体的差异。
22.设原假设为H0:某产生过程的不合格品率不大于P0。则第二错误指的是( )。
A.认为该过程生产不合格品过多,但实际并不多
B.认为该过程生产不合格品不过多,但实际过多
C.认为该过程生产不合格品不过多,实际也不过多
D.认为该过程生产不合格品过多,实际也过多
【答案】B
【解析】第二类错误指原假设为伪我们却没有拒绝,犯这种错误的概率用β表示,所以也称β错误或取伪错误。本题中若不合格品过多但是认为不合格品率不大于则犯了第二类错误。
23.设某因子有3个水平,每个水平下各重复2次试验。在单因子方差分析中,得到F=17,已知


则( )。
A.因子显著
B.因子不显著
C.在显著性水平α=0.05下,因子显著
D.在显著性水平α=0.01下,因子显著
【答案】C
【解析】单因素方差分析中,将统计量F的值与给定的显著性水平α的临界值进行比较,若
,则拒绝原假设

表明因子是显著的。
24.参数的估计量是一个( ),衡量其效果最重要的指标是其( )。
A.随机变量,均方误差
B.随机变量,期望
C.常数,均方误差
D.常数,期望
【答案】B
【解析】在参数估计中,用来估计总体参数的统计量称为估计量,它是一个随机变量。而无偏性(期望)是作为衡量估计效果的最重要指标。
25.以下关于回归分析的说法中,错误的是( )。
A.解读回归分析结果时,应首先看回归模型是否显著,在回归模型显著地情况下再看各回归系数是否显著
B.对回归系数β进行区间估计,需要正态分布的假定
C.对X和Y建立一元线性回归方程,则X和Y的相关系数与β成正比
D.若对同样的数据建立两个回归方程,则R2越小的回归方程越好
【答案】D
【解析】判定系数R2测度了回归直线对观测数据的拟合程度。R2越大,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归直线的拟合程度就越好。
26.同时掷两个均匀骰子(为六面的正方体,分别标有1,2,3,4,5,6个点),则两骰子点数之和为3的概率为( )。
A.1/36
B.2/36
C.3/36
D.6/36
【答案】B
【解析】同时掷两个骰子,所有可能的情况有36种,点数和为3的情况有2种。故两骰子点数和为3的概率是2/36。
27.已知P(B)>0,则P(A|B)与P(A)的大小关系是( )。
A.P(A|B)≥P(A)
B.P(A|B)≤P(A)
C.P(A|B)=P(A)
D.上述三种情况都有可能
【答案】D
【解析】

,而
与
的大小关系未知。
28.设随机变量X服从二项分布b(2,0.3),则P(X=2)为( )。
A.0.09
B.0.18
C.0.30
D.0.49
【答案】A
【解析】二项分布的分布函数为

所以

29.设随机变量X服从正态分布N(μ,σ2),则X的期望和方差分别为( )。
A.μ,σ
B.μ,σ2
C.σ,μ
D.σ2,μ
【答案】B
【解析】正态分布N(μ,σ2)的期望是μ、方差为σ2。
30.已知随机变量X的期望和方差分别为-1和1,则2X+3的方差为( )。
A.1
B.4
C.5
D.7
【答案】B
【解析】根据方差的性质:

所以。
二、简要回答下列问题(本题包括1~4题共4个小题,每小题10分,共40分)
1.在假设检验中,为什么说无论是作出接受原假设还是拒绝原假设的判断,都有可能犯错误?它们是什么样的错误?
答:
(1)在假设检验问题中,对于原假设提出的命题,需要用统计量做出判断,这种判断可以用“原假设正确”或“原假设错误”来表述。用来做出判断的统计量是样本的函数,即用样本提供的信息进行判,也就是由部分来推断总体,故不论是做出怎样的判断都有犯错的可能。
(2)所犯的错误有两种类型,一类错误是原假设为真却被我们拒绝了,犯这种错误的概率用表示,所以也称
错误或弃真错误;另一类错误是原假设为伪我们却没有拒绝,犯这种错误的概率用
表示,所以也称
错误或取伪错误。
2.重复测量某物体的重量,得到数据,应当采用
和
中的哪一个作为物体重量的估计为好?为什么?
答:(1)用作为物体重量的估计比较好。
(2)判断估计量好坏的标准有无偏性和有效性等。设总体均值(该测量物体的真实重量)为,方差为
,则统计量
和
的均值和方差分别如下:




因,故
比
更有效,所以用
作为物体的估计为好。
3.简述时间序列的乘法模型。
答:时间序列的成分可以分为4种,即趋势(T)、季节性或季节波动(S)、周期性或循环波动(C)、随机性或不规则波动(I)。传统时间序列分析的一项主要内容就是把这些成分从时间序列中分离出来,并将它们之间的关系用一定的数学关系式予以表达,而后分别进行分析。按4种成分对时间序列的影响方式不同,时间序列可分解为多种模型,如加法模型、乘法模型等。其中较常用的是乘法模型,其表现形式为:

4.先说说矩估计的统计思想,再求出区间[α,β]上均匀分布的总体参数的矩估计。
答:(1)矩估计方法是用样本的矩去估计总体的矩,从而获得有关参数的估计量。
矩估计的统计思想为:
设X为随机变量,对任意正整数k,称E(Xk)为随机变量X的k阶原点矩,记为:

在矩估计方法中,令

即用样本的阶矩去估计总体矩,这是一个包含k个未知参数
的方程组,此方程组所得解
即为参数
的矩估计值。
(2)已知X服从上的均匀分布,则


取样本值,则

解得
,
这就是总体参数α,β的矩估计。
三、计算与分析题(本题包括1~3题共3小题,第1小题和第2小题每题20分,第3小题10分,共50分)。
1.某生产车间50名工人日加工零件数如下(单位:个)117、122、124、129、139、107、117、130、122、125、108、131、125、117、122、133、126、122、118、108、110、118、123、126、133、134、127、123、118、112、112、134、127、123、119、113、120、123、127、135、137、114、120、128、124、115、139、128、124、121。请先适当分组,在作出频率直方图,最后根据图形,判断这组数据的分布形状。
答:画直方图时,分组数在5到7之间比较合适,此题中选取分组数为5,加工零件个数最少为107,最多为139,则组距为(140-100)/5=8。得到分组结果如下表:

根据以上结果可得频率分布直方图:

由频率分布直方图可以看出,这组数据呈左偏分布。
2.某商业银行2007年各分行贷款情况见下表1(单位:亿元)
表1 某商业银行2007年各分行贷款情况

运用Excel中的“回归分析”,得到下列结果:

方差分析


根据以上结果,回答下列问题:
(1)将上述表中的数据A,B,C,D,E求出:
(2)你认为用线性回归模型的拟合原始数据是否合适?为什么?
(3)写出不良贷款y与各项贷款余额x1及累计应收贷款x2之间线性回归方程,并解释各个回归系数的意义;
(4)您认为各个回归系数是不是显著不等于0?为什么?(取显著性水平为0.05)
(5)找出各个回归参数的95%区间估计。
答:(1)A表示修正后的可决系数:

所以

B表示残差平方和的自由度:。
C表示检验统计量F的值:

D表示的是回归系数的t检验统计量的值:

E表示的回归系数:

(2)用线性回归模型的拟合原始数据是合适的,因为无论是拟合优度还是调整后的拟合优度都较高,说明回归方程对观测值的解释程度较好;且F统计量对应p值小于0.05,即通过了回归方程的显著性检验。
(3)Y与及
之间线性回归方程为:

其中,回归系数0.2784的意义为:在其他条件不变的情况下,各项贷款余额每增加一亿元,不良贷款平均增加0.2784亿元;回归系数0.1952的意义为:在其他条件不变的情况下,累计应收贷款每增加一亿元,不良贷款平均增加0.1952亿元。
(4)当显著性水平为0.05时,各个回归系数显著不等于0,因为各个回归系数的t统计量的P值均小于显著性水平0.05(两个回归系数的t统计量的P值分别为0.00044和0.03244)。
(5)由题意知,的回归系数的置信度为95%的置信区间为(0.1385,0.4183);
的回归系数的置信度为95%的置信区间为(0.0179,0.3724)。
3.图中的五个字母代表五个同类元件,假设它们正常工作的概率都是P,且某个元件是否正常工作与其它元件无关,求系统正常工作的概率P。

答:若A元件正常工作,不论D元件是否正常工作,再考虑:
(1)若B元件正常工作,不论C、E元件是否正常工作,系统正常工作;
(2)若B元件不正常工作,则C、E元件都正常工作时,系统正常工作;
若D元件正常工作,不论A元件是否正常工作,再考虑:
(1)若E元件正常工作,不论C、B元件是否正常工作,系统正常工作;
(2)若E元件不正常工作,则C、B元件都正常工作时,系统正常工作;
综上,记系统正常工作为事件X,则:
