数据分析实验报告
文档编制序号:[KK8UY-LL9IO69-TTO6M3-MTOL89-FTT688]
第一次试验报告 习题1.3 1建立数据集,定义变量并输入数据并保存。 2数据的描述,包括求均值、方差、中位数等统计量。 分析—描述统计—频率,选择如下: 输出: 统计量 全国居民 22 0 1116.82 727.50 1031026.918 304.25 727.50 1893.50 农村居民 22 0 747.86 530.50 399673.838 239.75 530.50 1197.00 城镇居民 22 0 2336.41 1499.50 4536136.444 596.25 1499.50 4136.75 N 均值 中值 方差 有效 缺失 百分位数 25 50 75 3画直方图,茎叶图,QQ图。(全国居民) 分析—描述统计—探索,选择如下: 输出: 全国居民 Stem-and-Leaf Plot Frequency Stem & Leaf 5.00 0 . 56788 2.00 1 . 03 1.00 1 . 7 1.00 2 . 3 3.00 2 . 689 1.00 3 . 1 Stem width: 1000 Each leaf: 1 case(s) 分析—描述统计—QQ图,选择如下: 输出: 习题1.1 4数据正态性的检验:K—S检验,W检验 数据: 取显着性水平为0.05 分析—描述统计—探索,选择如下: (1)K—S检验 单样本 Kolmogorov-Smirnov 检验 身高 60 139.00 7.064 .089 .045 -.089 .686 .735 N 正态参数均值 a,,b 标准差 最极端差绝对值 别 正 负 Kolmogorov-Smirnov Z 渐近显着性(双侧) a. 检验分布为正态分布。 b. 根据数据计算得到。 结果:p=0.735 大于0.05 接受原假设,即数据来自正太总体。 (2)W检验 正态性检验 Kolmogorov-Smirnova 统计量 df Sig. Shapiro-Wilk 统计量 df Sig. 身高 .089 60 .200 *.972 60 .174 a. Lilliefors 显着水平修正 *. 这是真实显着水平的下限。 结果:在Shapiro-Wilk检验结果w00.972,p=0.174大于0.05 接受原假设,即数据来自正太总体。 习题1.5 5多维正态数据的统计量 数据: 统计量 x1 21 0 x2 21 0 x3 21 0 x4 21 0 N 均值 有效 缺失 18.219 27.867 4.505 33.767 均值向量为:X(18.219,27.836,4.505,33.767) 项间协方差矩阵 x1 x2 x3 x4 x1 3.502.701.011.269 7 9 6 x2 2.703.551.131.287 9 9 9 x3 1.011.131.991.749 9 8 0 x4 1.261.281.744.036 9 0 2 相关性 x1 x2 x3 x4 x1 Pearson 相关性 显着性 (双侧) N 1 .766** .385 .336 .000 .085 .136 21 21 21 21
x2 Pearson .766
相关性
显着性(双侧) N
x3 Pearson
相关性
显着性(双侧) N
x4 Pearson
相关性
显着性(双侧) N
**
1 .427 .340 .054 .131 21 21 21 **
.000 21
.385 .427 .085 .054 21 21 1 .613
.003 21 21 1 .336 .340 .613** .136 .131 .003 21 21 21
21 **. 在 .01 水平(双侧)上显着相关。
结果:x4与其他数据无相关性,其他三组数据线性相关
相关系数
x1 1.000 . 21 .790** .000 21 .434* .049 21 .431 .051 21 x2 .790** .000 21 1.000 . 21 .511* .018 21 .488 .025 21 *
x3 .434* .049 21 .511* .018 21 1.000 . 21 .691
**
x4 .431 .051 21 .488* .025 21 .691** .001 21 1.000 . 21 Spearman 的 x1 rho
相关系数 Sig.(双侧) N
相关系数 Sig.(双侧) N
x2
x3 相关系数 Sig.(双侧) N
x4 相关系数 Sig.(双侧) N
.001 21
**. 在置信度(双测)为 0.01 时,相关性是显着的。 *. 在置信度(双测)为 0.05 时,相关性是显着的。 结果:由Spearman相关矩阵的输出结果看,取显着性水平0.1,p值皆小于0.1,所以数据相关性显着 习题2.4 6线性回归线的拟合,回归系数的区间估计与假设检验,回归系数的选择、逐步回归。 7残差分析 分析—回归—线性,选择如下: 输出: 逐步回归结果: 两变量的系数p值均小于0.05均有统计学意义。 结果:由残差统计量表看出,数据无偏离值,标准差比较小,认为模型健康。 概率论课本习题7.5 8一个正态总体独立样本均值的t检验与区间估计 分析—比较均值—独立样本T检验: 输出: One-Sample Statistics N 折断力 Mean 10 2833.50 Std. Std. Error Deviation Mean 35.044 11.082 结果:样本均值为2833.50与总体均值2820比较接近 One-Sample Test Test Value = 2820 t 1.218 df 9 Sig. (2-Mean tailed) Difference .254 13.500 95% Confidence Interval of the Difference Lower -11.57 Upper 38.57 折断力 结果: t值为1.218小于临界值2.26,且P值为0.254大于显着性水平0.05,接受原假设,即认为样本均值与总体均值之差可能是抽样误差所导致 概率论课本习题7.7 9两个正态总体均值差异比较的t检验与配对检验 分析—均值比较—独立样本T检验,选择如下: 输出: 结果:P值为1大于显着性水平0.05,认为方差相等。此时,p值(Sig. (2-tailed))为0.229大于显着性水平0.05,认为样本均值是相等的,即电阻均值没有显着性差异。 分析—比较均值—配对样本T检验,选择如下: 输出: 结果同上:认为样本均值是相等的,即电阻均值没有显着性差异。
因篇幅问题不能全部显示,请点此查看更多更全内容