第一章 统计和数据
一.统计的含义
统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据分为描述统计和推断统计两大类。
描述统计是研究数据搜集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。
推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计与假设检验两大类。 二、数据类型:
1.定性变量的观察结果称为定性数据,这类数据的最大特点是它只能反映现象的属性特点,不能说明具体量的大小和差异。如天气形势:天气晴和阴转多云,职业:生产工人、公务员,教育程度:小学、大学等。这种只能反映现象分类特征的变量又称为分类变量,分类变量的观察结果就是分类数据。如果类别具有一定的顺序,如教育程度,中学的教育程度就是比小学高,大学又比中学高,这样的变量称为顺序变量,相应的观察结果就是顺序数据。 用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异,这些变量就是定量变量,也称为数值变量,定量变量的观察结果成为定量数据。如天气温度、上证股指、月收入。
分类变量没有数值特征,所以不能对其数据进行数学运算。分类变量只能用来区分事物,而不能用来表明事物之间的大小、优劣关系。
顺序变量不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。顺序变量之间虽然可以比较大小,却无法计算相互之间的大小、高低和优劣的距离。
很多适用于数值型数据的统计方法并不适用于定性数据,但适用于定性数据的方法则大多可以应用于数值型数据。 2.观测和实验数据
1
观测数据是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。是取得数据最主要的方法,用各种调查方法得到的数据都属于观测数据。观测数据可能是全面数据也可能是样本数据。
实验数据一般是在科学实验环境下取得的数据。自然科学研究中所用的数据多为实验数据。
三、数据来源与搜集方法
1.从使用者的角度来看,统计数据资料的来源主要有两种渠道:一种是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称之为原始或第一手统计数据;另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为次级数据或第二手间接的统计数据。一切间接的统计数据都是从原始的、第一手数据过渡而来的。 统计调查或进行实验就是统计数据的直接来源。
数据的间接来源有以下一些:一是公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校、科研机构;二是尚未公开发表的统计数据。
在应用间接数据时应注意以下问题:一是否了解并正确理解了间接数据中变量的含义、计算口径、计算方法,以防止误用、错用他人的数据;二引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权。 2.搜集数据的方法: 常用的统计调查种类有:
普查:特点是一种全面调查,具有资料包括范围全面、详尽、系统的优点;它是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一普查不宜经常举行。 抽样调查:例如,想了解某学校学生的零花钱支出情况,可以从中抽了一个样本获得样本数据。这里“全校所有学生”就是总体;从全校学生中抽取300人进行调查,这就是一个样本,构成样本的元素的数目称为样本量。
抽样调查的特点:一是样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响;二是能够根据部分调查的实际资料对调查对象的总体的数据特征进行推断,从而达到对调查总体的认识;三是在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制。
2
抽样调查既能节省人力、物力、财力,又可以提高资料的时效性,而且能取得比较正确的全面统计资料,具有许多优点。是一种非全面的、一次性的或经常性的专门调查,使用非常广泛。
抽样方法主要有两种:概率抽样和非概率抽样。
从理论上讲,概率抽样是最科学的抽样方法。常用的概率抽样形式为简单随机抽样;分层抽样;整群抽样;系统抽样又称为等距抽样。
非概率抽样由于方法简单、经济,所以也是人们常用的方法。 统计报表:
按报送范围分为全面报表和非全面报表;按报送周期来分分为月报、季报、年报; 统计报表的内容包括以下几个方面:
一是表式;二是填表说明:具体有填报范围、指标解释、分类目录、其他有关事项的规定。
重点调查:
当调查的任务只要求掌握事物的基本善与基本的发展趋势,不要求掌握全面的准确资料,而且在总体中确实存在着重点单位时,进行重点调查是比较适宜的。重点调查可以节省人力、财力,而且及时。 典型调查:
有意识地选择若干具有典型意义的或有性的单位进行调查。主要作用是一是补充全面调查的不足;二是在一定的条件下可以验收全面调查数据的真实性;具有灵活机动、通过少数英武即可取得深入、详实的统计资料的优点。但是在这种调查由于受“有意识地选也若干有代表性”的限制,在很大程度上受人们主观认识的影响,因此,必须同其他调查结合起来使用,才能避免出现片面性。 各类统计调查方法的特点:
普查 抽样调查 调查范围 全面 非全面 调查时间 一次 经常或一次 收集资料方法 采访、报告或空间遥感 直接观察或采访 3
统计报表 重点调查 典型调查 全面或非全面 非全面 非全面 经常 经常或一次 一次 报告 报告 采访 第二章 数据描述
一、用图表展示定性数据
定性数据包括分类数据和顺序数据,可能用频数分布表和图形来描述。常用饼图和条形图、环形图表示。
饼图:又称圆饼图、图形图,是利用圆形及圆内扇形面积来表示数值大小的图形。 条形图:用宽度相同的条形的高度或长度来表述数据多少的图形。
环形图:环形图是由两个及两个以上大小不一的饼图叠在一起,挖去中间的部分所构成的图形。
二、用图表展示定量数据
定性数据图示的表示方法,也都适用于定量数据。定量数据有一些特定的图示方法,并不适用于定性数据。
一般的分级个数在5-15之间。最大值为上限,最小值为下限。 组距=上限-下限
采取上限不在内的原则,计算在与下限相同的组内。
常用来表述定量数据的统计图形有直方图、折线图、散点图,还有茎叶图、箱线图。 直方图:横坐标代表变量分组,纵坐标代表各变量值出现的频数。 用统计表来表示数据
统计表由五个部分组成:表头、行标题、列标题、数字资料和表外附加构成。 表头放在表的上方,说明的是表的主要内容;
4
行标题和更标题一般放在表的第一行和第一列,表示的是所研究问题类别的名称和指标名称;
表的其余部分是具体的数字资料;
表外附加放在统计表的下方,用来说明资料来源、指标注释和必要的说明内容。通常情况下,统计表的左右两边不能封口。
5
见上页
6
7
8
9
10
假设检验
假设检验是先对总体参数或分布形式提出某种假设,然后利用样本信息和样本统计量的分布特征去检验这个假定,做出是否拒绝原来假设的结论.
小概率事件:在一次事件中几乎不可能发生的事件。一般称之为“显著性水平”,用α表示。显著性水平一般取值为:α=0。05或α=5%。 假设检验的过程:
首先要提出一个原假设和备择假设。原假设也称为零假设,记为H0。备择假设又称为备选假设,记为H1。 第二,确定检验统计量。
在对总体的均值进行检验时,大样本应用正态分布检验,计算Z统计量,小样本一般用t分布检验,计算t统计量。 第三,确定显著性水平α。
11
根据样本所得的数据来拒绝零假设的概率应小于0.05,当然也可能是0.01,0.005,0.001等等。拒绝正确零假设的错误常被称为第一类错误或弃真错误α。当备选假设正确时反而说零假设正确的错误,称为第二类错误或取伪错误β。 假设检验决策结论及其后果:
实际情况 决策结果 H0为真 不拒绝H0 拒绝H0 正确决策 弃真错误α H0为伪 取伪错误β 正确决策 对于两类错误的分析,要注意只有拒绝原假设时,才有可能犯第一类错误,只有不拒绝原假设时,才有可能犯第二类错误。
在一般的假设的问题中,犯第一类错误的概率最大不超过α,但由于备选假设往往不是一个点,所以无法算出犯第二类错误的概率β。一般情况下,人们认为犯第一类错误的后果更严重一些,因此通常会取一个较小的α的值。通常选择显著性水平为0.05或比0.05更小的概率。
第四,根据数据计算检验统计量值和与这个统计量值对应的概率值P值,并进行决策。 拒绝域的大小与显著性水平有关。当样本量固定时,拒绝域随α的减小而减小。 如果P值小于或等于α,就拒绝原假设,这时错误的概率最多为α;P值大于α,就不能拒绝原假设,因为证据不足。 检验决策准则:
双侧检验:|统计量的值|>临界值,或P≤α时,拒绝原假设。 左侧检验:统计量的值<临界值,或P≤α时,拒绝原假设。 右侧检验:统计量的值>临界值,或P≤α时,拒绝原假设。 对假设检验进行总结:
一是假设检验依据的是小概率原理;二是小概率标准在抽样前依需要确定;三是假设检验的结果只能是拒绝或不拒绝原来假设,而不能证明原假设成立;四是统计假设检验的结果不是正确。
12
大样本的检验
在大样本的情况下,样本均值的抽样分布服从正态分布,因此采用正态分布的检验统计量,当总体方差已知时,总体均化零为整检验的统计量为:
相关分析与回归分析
相关分析 相关分析的主要内容包括:
一是确定现象之间有无关系,这是相关分析的起点,只有存在相互储存关系,才有必要进行进一步的分析。
二是确定相关关系的表现形式,只有判明了现象之间相关关系的具体表现形式,才能运用相应的回归分析方法进一步分析现象之间的数量依存关系,如果把曲线相关误认为是直线相关,按直线相关来分析,便会出现认识上的偏差,导致错误的结论。
13
三是测定相关关系的密切程度。 散点图又称相关图。 相关的形态:
若变量Y与变量X的相关关系表现为线性组合,或绘制的散点图近似地表现为一条直线或直线带,则称之为线性相关,若Y与X是非线性组合,或绘制的散点图近似地表现为一条曲线,则称之为非线性相关或曲线相关。 相关的方向:
当两个变量的变动方向总体上相同,即一个变量增加,另一个变量也相应地增加,或一个变量减少,另一个变量也相应地减少时,两个变量之间的关系属于正相关;若两个变量变动的方向总体上相反,即一个变量增加的同时,另一个变量随之减少时,两个变量之间的关系属于负相关。
相关系数是测定变量之间关系密切程度的量,它能够以数字准确地描述变量之间的相关程度。相关系数的计算公式是:
相关系数具有如下性质:
1.r的取值范围在-1~1,即-1≤r≤1.r>0表明x与y之间存在正线性相关关系;r<0表明x与y之间存在负线性相关关系;r值越接近1(或-1)就越正(或负)相关,越接近0,就越不相关。r=1或r=-1表明x与y是安全相关关系(实际上就是函数关系)。 2.r具有对称性。
3.r数值大小与X和y的数据原点及计量尺度无关。
4.r仅仅是X与y之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,r=0只表示两个变量之间不存在线性相关,并不表明变量之间没有任何关系,比如他们之间可能存在非线性相关关系。
5.r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。
14
可将相关程度分为以下几种情况:
当|r|≥0.8时,可视为高度相关;当0.5≤|r|<0.8时,可视为中度相关;当0.3≤|r|<0.5时,可视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱。 相关系数的检验:
相关系数的检验通常用t分布检验,该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下: 首先确定原假设:
H0:两变量之间不存在线线性相关 或 H0:p=0 H1:两变量之间存在线线性相关 或 H1:p≠0 其次,计算统计量t值
15
16
17
18
时间序列分析
时间序列是对一定时间间隔所发生的行为进行动态的跟踪分析,进而研究某些时间随时间变化是否有数量上的变化、有无统计上的显著性意义。
时间序列有两个要素构成:一是现象所属的时间;二是对应不同时间的统计指标数值。 (一)时间序列的分析指标
时间数列的增长量分析主要有增长量和平均增长量。
反映时间序列增长率的指标主要有:发展速度、增长速度、平均发展速度和平均增长速度。
19
20
统计指数
统计指数所研究的主要是狭义的指数,狭义的指数是表明复杂社会经济现象总体数量综合变动的相对数。广义的指数表明社会经济现象总体数量变动的相对数。 按反映对象范围的不同,分为个体指数和综合指数。
按所表明的经济指标性质不同,分为数量指数和质量指数。数量指数也称物量指数,是表明总体单位数量、规模等数量变动的相对数。质量指数是表明总体单位水平、工作质量等质量变动的相对数。
拉氏指数:德国经常学家拉斯贝尔主张不论是物价指数还是物量指数都采用基期作为权数的指数:
21
22
派氏指数:德国经济学家派许主张不论是物价指数还是物量指数都采用报告期作为权数的指数。
拉氏主要受基期商品(产品)结构的影响,派氏指数主要受报告期商品(产品)结构的影响。在实际应用中,由于派氏指数要求每期更换权数资料,计算比较麻烦,而拉氏指数的权数固定在基期,在编制长期连续性的指数数列时比较方便,因此,拉氏指数更得普遍的应用。但是从实际意义上看,派氏物量指数的解释更符合现实意义。
在编制物价指数时,要以商品的销售量或使用数量为权数;在编制物量指数时,要以商品的价格或成本作为权数。
我国目前编制的价格指数主要有居民消费价格指数、农产品收购价格指数、工业品出厂价格指数、固定资产投资价格指数、房地产价格指数等。与人民生活关系最密切的是居民消费价格指数。
(一)居民消费价格指数:居民消费价格指数=100,表明报告期与基期相比综合物价没有变化;居民消费价格指数大于100,说明报告期与基期相比综合物价上升,价格指数越高,反映物价上涨得越多;居民消费价格指数小于100,说明报告期与基期相比综合物价下降。
23
居民消费价格指数除了能反映城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度外,还具有以下几个方面的作用:一是反映通货膨胀状况。
(二)股票价格指数
目前几种常见的股价指数有:道.琼斯股票价格平均指数,标准普尔指数,恒生指数,上证股价指数。深圳股价指数。
24
因篇幅问题不能全部显示,请点此查看更多更全内容