21100163-应用统计学-课程教学大纲.doc
《应用统计学》课程教学大纲 一、 课程基本信息 课程代码:21100163 课程名称:应用统计学 英文名称:Applied Statistics 课程类别:专业必修课 学 时: 48 学 分: 3 适用对象: 人力资源管理专业 考核方式:考试 先修课程:无 二、 课程简介 应用统计学课程介绍了当今社会科学研究中主要的统计方法,内容包括:描述统计 (样本的数据特征和统计图表),概率基础知识,随机变量及其分布,参数点估计和区间 估计,参数假设检验,分布检验,变量独立性检验,效应量和检验力,各种变量的相关 分析,测量信度,一元和多元回归分析,单因素、多因素方差分析和重复测量实验设计 的方差分析,一元逻辑斯蒂回归分析,因子分析和主成分分析。重点讨论了统计思想和 统计原理、应用实例、SPSS 软件操作方法、结果解释和表述。 Applied Statistics introduces the main statistical methods of present psychological research. It covers: descriptive statistics (data features of samples and diagrams), basic knowledge of probability, random variables and their distribution, parameter point estimation and interval estimation, parametric hypothesis test, distribution test, variable independence test, effect size and power of statistical test, analysis of various variables, test reliability, univariate and multivariate regression analysis, one-way ANOVA(analysis of variance), multivariate ANOVA, repeated measures ANOVA, unary logistic regression analysis, factor analysis and principal component analysis. This course focuses on statistical ideas and principles, application cases, operation of software SPSS, result interpretation and expression. 三、课程性质与教学目的 本课程的性质是“专业必修课”。 教学目的是,通过本门课程的教学活动,使学生掌握回归分析、方差分析、因子分 析等统计分析方法的统计思想、原理和实际操作步骤,以及统计结果的解释和表述,为 学生从事社会学研究、毕业论文创作、以及毕业后从事相关工作时,能熟练使用统计方 法分析相关的数据。统计无国界,中国人的统计是很棒的,让我们的大学生对于统计的 学习充满信心。 四、教学内容及要求 第一章 变量与数据 (一) 目的与要求 了解心理统计学的基本概念 (二) 教学内容 第一节被试与变量 1、主要内容:被试与变量 2、基本概念与知识点: 1. 总体与样本 总体(population):研究对象的全体 样品(case):被抽到的个体。心理和教育研究通常称为被试 样本(sample):样品全体 样本容量(sample size):样品个数 2. 变量 变量(variable) :研究对象的某种特征,在个体之间可以变化。通常是描述个体某 方面特征的概念,如学生性别、视力、自尊等 变量值(value) :变量在个体上的取值 样本数据(sample data):样本中所有样品(被试)的变量值全体 3. 数据来源 调查(survey):对研究对象自然产生的现象或客观存在的事实作观察、测量和记 录。 实验(experiment):是人为地控制、改变一些条件,观察、测量和记录研究对象 在不同条件下的结果。 测验(testing)是运用编制好的一组题目(量表)对被试施测而获得数据的一种方 法。 4. 变量命名和编码 编码(code)——对非数值的变量取值,赋予一个数值。 例如,性别是一个变量,取值是“ 男” 或“ 女” 。可以将变量命名为“gender” 或 “xingbie”等,将“男”编码为1,将“女”编码为0。 反向题的重新编码 5. 变量的操作性定义 如果有前人的定义,除非确有必要重新定义,否则尽量采用已有的定义,使新的研 究和已有的研究之间具有延续性和可比性 问卷或量表中的一个题目,实际上定义了一个变量。该题目就是对应变量的操作定 义。如果不同的研究者使用同一个问卷来收集数据,实际上使用了相同的操作定义。 第二节变量的类型 1、主要内容:四种变量的类型 2、基本概念与知识点: 定类变量(nominal),也称为类别变量 定序变量(ordinal),也称为等级变量 定距变量(interval),也称为间距变量 定比变量(ratio),也称为比率变量 定比和定距测量数据统称为尺度(scale)测量数据。它和定序(ordinal)测量数据和 定类(nominal)测量数据一起构成 SPSS 中规定的三种数据测量级别。 (三) 思考与实践 思考:本章属于描述性统计,本章的重点在如何进行连续型变量的频数分析描述, 加强学生的动手实践能力。 实践环节:SPSS 操作入门 课后练习:P12-13 1-4 题 (四) 教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等。 第二章 频数分析 (一) 目的与要求 会对类别变量和连续变量进行频数分析 (二) 教学内容 1、主要内容:变量的频数分析 2、基本概念与知识点: 连续变量的频数分析: 编制次数分布表的步骤: 1).求出全距(range)。全距是全部数据中的最大值与最小值的差, 2).确定组距(size of the class interval)和组数。组距是一个组的终点与 前一个组的终点的距离,即两者之差。 3).确定组限(limit) 。组限就是每一个组的起止范围。 4).有时候要计算组中值(midpoint)。它等于上限与下限之和的一半。 5).分组登记次数。 6).计算并报告频率百分比。 7).计算并报告累积频率百分比。 (三)思考与实践 思考:本章属于描述性统计,本章的重点在如何进行连续型变量的 频数分析描述,加强学生的动手实践能力。 实践环节:频数分析的 SPSS 操作 课后练习:P23-24 1-2 题 (四) 教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等。 第三章 样本的数字特征 (一) 目的与要求 会对数据进行描述统计,会计算样本的均值和标准差,会计算众数、中 数、方差、四分位差、偏态系数和峰态系数。 (二) 教学内容 第一节 数据分布的集中趋势 1、主要内容:数据的三种集中趋势 2、基本概念与知识点: 1、 算术平均数是所有观察值得总和除以总频数所得之商,简称为平均数或均 数。 2、 中位数是位于依一定顺序排列的一组数据中央位置的数值,在这一数值上、 下各有一半频数分布着。 3、 众数是样本中该变量取值次数最多的那个数值。 例如:虽然平均数是使用频率最高的,但是还是要具体问题具体分析。例如, 描述一个城市的房价,人际平均收入用均值就很不合适,中数才是比较合适 的,因为均值更容易受极端值影响。在学习中,要活学活用,切不可死记硬 背。 第二节 数据分布的离散趋势 1、主要内容:数据的离散趋势 2、基本概念与知识点: 1、 全 距 是 分 布 分 数 最 大 值 (maximum) X 的 精 确 上 限 与 分 布 分 数 最 小 值 (minimum) X 的精确下限的差值。 2、 四分位距就是75%百分位数与25% 百分位数间的距离,它代表分布中间50%的距离。 3、 方差是指离差平方的算术平均数。 4、 标准差是指离差平方和平均后的方根。即方差的平方根。 第三节 数据分布的形态 1、主要内容:数据的三种分布形态 2、基本概念与知识点: 1、 正态分布 2)、偏态分布 3)、峰态分布 第四节 标准分及其在分布中的应用 1、主要内容:标准分的计算与意义 2、基本概念与知识点: 1)、始分转换成标准分是线性转换,不改变原始分的分布形态,也不改变原始 分的排位顺序。 2)、标准分与原始分的测量单位没有关系。它以原始分的均值为原点(零 点),以原始分的标准差为单位,表示了其原始分在以平均数为中心时的相对位 置 3)、Z=0对应的原始分刚好等于均值。 4)、Z的正负号说明了对应的原始分是在均值之上(正号)还是均值之下(负 号)。 5)、Z的绝对值说明了对应的原始分与均值相差有多远。例如,Z=1对应的原 始分比均值大1个标准差,Z=-1.5对应的原始分比均值小1.5个标准差。 第五节 计算样本数字特征的SPSS例解 1、主要内容:使用SPSS软件进行样本数字特征的计算 2、基本概念与知识点: SPSS中,Frequencies(频数分析)和(Descriptives)描述统计命令都能计算数 字特征。 频数分析可以得到频数分析表,计算分位点,做出条形图(或直方图、饼图等) 描述统计可以在数据窗口产生标准化变量(即标准分) (三) 思考与实践 思考:本章属于描述性统计,本章的重点在于集中趋势和离散趋势 的描述,加强学生的动手实践能力。 实践环节:样本数字特征分析的 SPSS 操作 课后练习:P39 1-6 题 (四) 教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等。 第四章 统计图 (一) 目的与要求 会对数据制作统计图,包括条形图、线性图、时序图、饼图、散点图、 箱形图、茎叶图、直方图和多边图。 (二) 教学内容 1、主要内容:各种统计图的介绍与绘图 2、基本概念与知识点: 1)、统计图的结构及其绘制规则 统计图由标题、图号、标目、图形、图注等项构成。下面按其构成部分说明 绘图的基本规则。标题:图的名称应简明扼要,切合图的内容,必要时可注明时 间、地点。图号 文章中若有几幅画,则需按其出现的先后次序编上序号,写在图 题的作前方。标目:对于有纵横轴的统计图,应在纵横轴上分别标明统计项目及 其尺度。图形:图形线在图中为最粗,而且要清晰。图注:图注不是图中必要组 成部分。 2)、表示间断变量的统计图 (1)直条图是用直条的长短表示统计事项数量的图形。它主要是用来比较性质 相似的间断性资料。用一些垂直条画在每个分数之上 垂直条的高度代表次数 垂直条的宽度代表分数的精确区间. 只有数据是等距或等比量度时,才能用直方图 (2)圆形图是用来表示间断性资料构成比的图形。 3)、表示连续变量的统计图 (1)线形图用来表示连续性资料。它能表示两个变量之间的函数关系; 一种事物随另一种事物变化的情况;某种事物随时间推移的发展趋势等。 (2)常用的频数分布图有直方图、多边图和累积多边图。 直方图用面积表示频数分布。用各组上下限上的矩形面积表示各组频数。 多边图以纵轴上的高度表示频数的多少。 (3)累积频数和累积百分比多边图 (三) 思考与实践 思考:本章属于描述性统计,本章的应用性很强,加强学生的动手 实践。 实践环节:统计图分析的 SPSS 操作 课后练习:P60 1-4 题 (四) 教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等。 第五章 概率基本知识 (一) 目的与要求 推断统计的基础是概率论,了解事件及其运算、事件的概率、概率的性 质和运算以及全概率公式。通过概率的学习,让学生充分了解赌博、买彩票 都是独立事件,从概率意义上说,中奖都是小概率事件,是很难中奖的,坚 决不赌博、不买彩票。通过诚实劳动才获得财物。 (二) 教学内容 1、主要内容:概率的基本知识 2、基本概念与知识点: 1)、概率的定义 概率因寻求的方法不同有两种定义,即后验概率和先验概率。(一)后验概率的 定义以随机事件A 在大量重复试验中出现的稳定频率制作为随机事件A 概率的估计值, 这样寻得的概率称为后验概率。(二)先验概率的定义先验概率是通过古典概率模型加 以定义的,故又称为古典概率。古典概率模型要求满足两个条件: a.试验的所有可能结果是有限的 b.每一种可能结果出现的可能性(概率)相等 2)、概率的性质 a.任何随机事件A 的概率都是介于0 与1 之间的正数 b.不可能事件的概率等于0 c.必然事件的概率等于1 3)、概率的加法和乘法 a.概率的加法在一次试验中不可能同时出现的事件称为互不相容的事件。两个 互不相容事件和的概率,等于这两个事件概率之和。 b.概率的乘法A 事件出现的概率不影响B 事件出现的概率,这两个事件为独 立事件。两个独立事件的概率,等于这两个事件概率的乘积。为获得正确定义的概率, 个体的选取 (取样) 一定要通过随机取样,随机取样应满足以下两个条件: (1).总体中的每个个体有同样的机会被选择 (2).如果样本中要选择多于一个的个体,每次选择的概率应当恒定 (三) 思考与实践 思考:本章的理论性较强,只要是概率理论,本章的重要性在于概率是统计 的基础。 课后练习:P74-75 1-9 题 (四) 教学方法与手段 本章教学主要采用课堂讲授、课堂讨论等。 第六章 随机变量及其分布 (一) 目的与要求 概率统计中,所说的变量都是随机变量,了解常用的离散型随机变量和 连续性随机变量 (二) 教学内容 1、主要内容:随机变量的概率分布 2、基本概念与知识点: 1)随机变量:定义在事件集合上的函数,简称为变量。 例如 抛掷一枚硬币,正面朝上的次数; 三个孩子家庭,男孩的个数; 2)二项分布 二项分布是一种离散型随机变量的概率分布。用n 次方的二项展开式来表达在n 次二项试验中成功事件出现不同次数(X=0,1,…,n)的概念分布叫做二项分布。二 项展开式的通式就是二项分布函数,运用这一函数式可以直接求出成功事件恰好出现X 次的概率。 3)正态分布 正态分布有如下性质: 1.正态曲线关于x=μ对称,成一口钟形,单峰状。通俗地说,是“中间 大,两头小”。 2.当x→∞时,曲线右尾以x轴为渐近线;当x→-∞时,曲线左尾也以x轴 为渐近线。 3.曲线下方与x轴所围面积正好是1,由对称性,在x=μ左方或右方的面 积均为0.5。 4.当 μ 变小时,曲线向左平移;当 μ 变大时,曲线向右平移。当 σ 变 小时,曲线变得“瘦高”;当 σ 变大时,曲线变得“矮胖”。 (三) 思考与实践 思考:本章的正态分布是重中之重,随机变量的概率分布是后面假设检验 的基础。本章的理论性较强,实践性仅现在正态分布的应用上。 实践环节:正态分布分析的 SPSS 操作 课后练习:P101-103 1-7 题 (四) 教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等。 第七章 参数估计和假设检验 (一)目的与要求 参数估计和假设检验是推断统计的两个重要组成部分。了解参数的点估 计和区间估计。掌握检验的基本知识。掌握均值检验的检验方法和分布检验 的检验方法。 (二)教学内容 第一节 参数估计 1、主要内容:参数的点估计和区间估计 2、基本概念与知识点: 1、 参数的点估计:用某一样本统计量的值来估计相应总体参数的值叫总体参 数的点估计。 2、 参数的区间估计:以样本统计量的抽样分布(概率分布)为理论依据,按 一定概率要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估 计。区间估计涉及置信水平和置信区间。 第二节 假设检验概述 1、主要内容:假设检验的原理和逻辑 2、基本概念与知识点: 利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保留 的决断,称为假设检验。 1、 假设:假设检验一般有两个相互对立的假设。即零假设(或称原假设、虚 无假设、解消假设)和备择假设(或称研究假设、对立假设)。假设检验是从零假设出 发,视其被拒绝的机会,从而得出决断。 2、 小概率事件:把出现小概率的随机事件称为小概率事件。小概率事件是否 出现,这是对假设做出决断的依据。 3、 显著性水平:拒绝零假设的概率称为显著性水平。显著性水平和可靠性程 度之间的关系是:两者之和为 1。 4、 统计决断的两类错误及其控制: 如果拒绝了属于真实的零假设,即如果样本统计量的总体参数正是假设的总体参 数,但是由于样本统计量的值落入了拒绝区域。而零假设遭到拒绝,这时就会犯第一 类型的错误。这种错误的可能性大小正是显著性水平的大小,故又称这类错误为 α 错 误。如果保留了属于不真实的零假设,就会犯第二类型的错误。犯这种“假设属伪而被 保留”的第二类错误的概率,等于 β 值,故又称这类错误为 β 错误。 要使第一类错误的概率保持在需要的水平上,而控制第二类错误的概率,有以下 方法: (1)利用已知的实际总体参数与假设参数值之间的大小关系,合理安排拒绝领 域的位置,选择双侧检验还是单侧检验,左侧检验还是右侧检验。 (2)加大样本容量。 5)、统计结果的表述 要研究小学毕业生男女生的阅读理解能力是否相同,要检验的假设是: (1)如果检验结果是拒绝零假设,则说“小学毕业生男女生的阅读理解能力有显 着差异”或者“小学毕业生阅读理解能力的性别差异显着”。这时,要看哪组的阅读理解 成绩的均值比较高。如果男生组的均值较高,则进一步说“男生的阅读理解能力显著高 于女生”。 (2)如果检验结果是不拒绝零假设,则说“小学毕业生男女生的阅读理解能力没 有显着差异”。此时没有必要比较哪组的阅读理解成绩的均值较高。 第三节 总体均值的检验 1、主要内容:总体均值的 Z 检验和 t 检验 2、基本概念与知识点: 1)、检验的步骤: (1).提出假设 H0: H1 : (假设检验一般有两个互相对立的假设: 零假设和备择假设。所谓零假设就是关于当前样本所属的总体与假设总体无区别的假设。 零假设一般用 H0 表示。所谓备择假设是与零假设相排斥的假设。备择假设一般用 H1 表示。 ) (2) .选择检验统计量并计算其值 (3) .确定检验形式:因为没有资料可以说明应届毕业生汉语拼音测验成 绩是高于还是低于历届毕业生,故采用双侧检验。 (4) .统计决断:先根据显著性水平查相应的理论概率分布表,寻找相应 的临界值。将实际计算出的检验统计量(Z 值)与查表寻找出的临界值相比较,在根 据统计决断规则对 H0 做出保留或拒绝的决断。本例实际计算出的 Z 值表明样本统计 量的值未落入拒绝区域。于是保留 H0,而拒绝 H1。其结论为:该校应届与历届毕业生 汉语拼音测验成绩无显著差异。 双侧 Z 检验统计决断规则 与临界值 P 值 的比较 P>0.0 5 0.01< P< 0.05 P≤0.0 1 检验结果 保留H0 拒绝H1 在0.05 显著性水平上拒绝H0 保留H1 在0.01 显著性水平上拒绝H0 保留H1 显著 性 不显 著 显著 (*) 极其 显著(**) 2、 单总体 t 检验: 例:某区初三英语统一测验平均分数为65,该区某校20 份试卷的分数为一:72、 76、68、78、62、59、64、85、70、75、61、74、87、83、54、76、56、66、68、62。 问该校初三英语平均分数与全区是否一样? 3、 配对样本 t 检验 两个样本内个体之间存在着一一对应的关系,这两个样本称为相关样本。相关 样本有以下两种情况:A、用同一测验对同一组被试在试验前后进行两次测验,所获得 的两组测验结果是相关样本;B、根据某些条件基本相同的原则,把被试一一匹配成对, 然后将每对被试随机地分入实验组和对照组,对两组被试施行不同的实验处理之后,用 同一测验所获得的测验结果,也是相关样本。 相关样本平均数差异的显著性检验方法和步骤 (一)提出假设 (二)选择检验统计量并计算其值。 (三)确定检验形式 (四)统计决断 例(配对组的情况):为了揭示小学二年级的两种识字教学法是否有显著性差 异,根据学生的智力水平、努力程度、识字量多少、家庭辅导力量等条件基本相同的原 则,将学生配成 10 对,然后把每对学生随机地分入实验组和对照组。实验组采用分散 识字教学法,而对照组施以集中识字教学法,后期统一测验。 4、 独立样本 t 检验 两个样本内的个体是随机抽取的,它们之间不存在一一的对应关系,这样的两 个样本称为独立样本。 第四节 分布检验 1、主要内容:总体正态分布检验和卡方检验 2、基本概念与知识点: 1、 总体正态分布检验 2、 类别变量分布的卡方检验。 卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种 假设分布所作的假设检验。即根据样本的频数分布来推断总体的分布。它属于自由分布 的非参数检验。它可以处理一个因素分为多种类别,或多种因素各有多种类别的资料。 (1)卡方检验的统计量 卡方检验统计量的基本形式为公式为 χ2= ∑[(f0-f e)2/ f e] χ2 值有以下几个特点: (一)χ2 值具有可加性(二)χ2 值永远是正值(三)χ2 值的大小随实际频数与理论 频数差的大小而变化。 (2)χ2 的抽样分布 χ2 分布有以下几个特点:(一)χ2 分布呈正偏态,右侧无限延伸,但永不与 基线相交(二)χ2 分布随自由度的变化而形成一簇分布形态自由度越小,χ2 分布偏 斜度越大;自由度越大,χ2 分布形态越趋于对称。 (三) 思考与实践 思考:本章的内容十分重要。首先,t 检验是本章的重中之重,该内容的应 用性很强,一定要熟练操作。另外,本章的假设检验的理论性很强,要让学生明白其中 的逻辑。 实践环节:正态分布分析的 SPSS 操作 课后练习:P101-103 1-7 题 (四) 教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等。 第八章 相关分析 (—) 目的与要求 使学生了解相关的概念和特点,掌握如何计算 person 相关系数,用于检验两 个类别变量独立性的列联表分析,以及信度测量。 (二)教学内容 1、主要内容:相关分析与信度计算 2、基本概念与知识点: 1)、相关:一个变量的值发生了变化,另一个变量的值也发生变化,这种共同变化 的关系,统计上称为相关。 正相关是指一个变量的值增加时,另一个变量的值也有增加的趋势。如入学时英语 词汇量与第一学年末词汇量的相关就是正相关的例子,入学时词汇量越多,第一学年末 词汇量也越多。如果检验结果是两次测验的词汇量相关显著,在写研究报告时,在给出 相关系数及其显著性概率后,通常会说:“第一学年末词汇量与入学时词汇量有显著正 相关,即入学时词汇量越多,第一学年末的词汇量往往也越多”。 负相关是指一个变量的值增加时,另一个变量的值反而有减少的趋势。例如,被试 人格因素中的外向性和神经质的相关,外向性得分越高的被试,神经质的得分有降低的 趋势,即外向性与神经质负相关。如果检验结果是外向性和神经质相关显著,在写研究 报告时,可以这样说:“外向性和神经质负相关显著。一般地说,外向性得分越高的被 试,神经质得分越低。外向性得分越低的被试,神经质得分越高”。 2)、相关系数的特性 对称性:如果计算相关系数时不需要区分哪个是自变量(independent variable), 哪个是因变量(dependent variable) ,这样的相关系数描述了对称(symmetrical)关系。 3)、相关系数 用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。一 般用 r 表示。相关系数的值,仅仅是一个比值。它不是由相等单位度量而来(即不等 距),也不是百分比,因此,不能直接作加、减、乘、除。相关系数只能描述两个变量 之间的变化方向及密切程度,并不能揭示二者之间的内在本质联系。相关系数的值在-1 和 +1 之间,0 相关意味着没有关系,+1 意味着"完全的正相关" 之间两个,-1 意味 着完全的负相关。 4)、皮尔逊相关 一个变量是定距变量,一个变量是二值变量,将后者编码为 0 和 1,然后计算皮 尔逊相关系数,就等于点双列相关系数。 X 与 Y 是两个特殊的定序变量,各有相同的等级个数,每个样品的变量值是样本 排序后该样品的等级值,计算皮尔逊相关系数,就等于斯皮尔曼等级相关系数。 5)、列联表分析和独立性检验 6)、测验信度 测验信度是指测验结果的一致性或稳定性程度。 a) 重测信度 b) 复本信度 c) 分半信度 d) 内部一致性信度 (三) 思考与实践 思考:本章内容的相关分析是描述性统计的内容,比较简单,但却是下一 章回归分析的基础。另外,本章十分重要的是信度分析方法,这是问卷调查研究十分重 要的部分。 实践环节:相关分析的 SPSS 操作 课后练习:P164-166 1-7 题 (四) 教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等 第九章 回归分析 (一)目的与要求 使学生了解和掌握线性回归,包括一个自变量和多个自变量的线性回归。掌握如何 建立回归方程、如何检验、评价和解释回归方程,如何利用回归方程进行预测。从回归 分析的教学中,让学生知道回归分析和方差分析是可以互通的,换句话说,让学生感受 到学科之间并没有绝对的界限,现在的科学发展的一个趋势就是学科交叉。 (二)教学内容 如果两个变量 X 和 Y 的相关显著,说明这两个变量有某种程度的共变关系。我们 希望通过 X 的值去预测 Y 的值,或者希望了解 Y 的变化在多大程度上可以由 X 的变化 来 解 释 。 这 时 , 称 Y 为 因 变 量 ( dependent variable ), X 为 自 变 量 ( independent variable)或预测变量。 作回归分析就是试图找到一条直线(以及线性方程)以最佳地拟合数据点。最佳拟合 线意味着:目标是是使误差最小。即,这条线与所有的数据点最近,是最佳拟合线。回 归线是给定 X,a 和 b,用公式 (线性方程)来预测 Y 的值。我们的目标是找出一条线, 以对 Y 作最佳估计. 即,这条线使得所有 Y 值的估计误差最小。 第一节 一元线性回归 1、主要内容:一元线性回归的原理与计算 2、基本概念与知识点: 一元线性回归是指只有一个自变量的线性回归。 测定系数指回归平方和在总平方和中所占比例,这个比例越大,意味着误差平方 和所占比例越小,预测效果就越好。测定系数同时等于相关系数的平方。 一元线性回归方程检验有三种等效的方法: 1)对回归方程进行方差分析 2)对两个变量的相关系数进行与总体零相关的显著性检验 3)对回归系数进行显著性检验 第二节 多元线性回归 1、主要内容:多元线性回归的原理与计算 2、基本概念与知识点: 1、 多元回归方程 a)多元线性回归方程是指 Y 对 X1 、X2。 。。Xn 的线性回归方程。 b)多元线性回归方程的建立原理和一元线性回归方程一样,多元线性回 归方程也用最小二乘法来确定回归系数。 c)多元线性标准回归方程为了比较多个自变量在估计预测因变量时所起 作用的大小,需要将所有变量分别转换成标准分数,然后比较由标准分数所建 立的标准回归方程中的多个标准回归系数,以此判断两个自变量作用的大小。 2、 多元回归的检验 多元线性回归的检验包括两个方面:一是检验回归方程的显著性;另一是检验两个 偏回归系数的显著性。 3)、多元线性回归方程中自变量的选择 指定变量(enter) 向后剔除法(backward) 向前选择法(forward) 逐步回归法(stepwise) 逐步回归的原理是按每个自变量对因变量的作用,从大到小逐个地引入回归方程, 每引入一个自变量要对回归方程中的每一个自变量都进行显著性检验(即对其偏回归系 数进行显著性检验)。这样逐步地引入自变量,并剔除不显著的自变量,直至将所有的 自变量都引入,并将不显著的自变量都剔除为止,最后形成的回归方程就是最优方程。 层次回归法 4)、残差分析 误差方差齐性检验 相邻误差项是否有序列相关(Durbin-Watson 检验) 误差正态性检验 查找异常点(outlier) (三)思考与实践 思考:本章内容是问卷调查研究数据分析的核心部分,地位十分重要,要 让学生不仅熟悉理论,更要熟练操作,确保数据分析的准确性和可靠性。 实践环节:回归分析的 SPSS 操作 课后练习:P199-200 1-4 题 (四)教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等 第十章 方差分析 (一)目的与要求 了解和掌握方差分析的基本原理和计算方法,会计算单因素完全随机方差分析, 重复测量方差分析,两因素完全随机设计,两因素混合设计的方差分析。从方差分析的 发展上,让学生感受到,科学永无止境。科学的最大意义就在于不断的探索,不断在前 人基础上前进。 (二)教学内容 第一节 单因素方差分析 1、主要内容:单因素方差分析的原理与计算 2、基本概念与知识点: 所谓因素(factor),是由研究者掌握的、设想为原因的变量(自变量),一种是 由研究者主动操纵而变化的变量,如学习内容、教学方法、教学组织形式、学习时间、 刺激次数(或强度)、作业量、活动方式等;另一种是研究者主动选择而变化的变量, 如性别、年级、智力、家庭背景等。 因素的每个取值称为因素的一个水平(level)。每个因素各取一个水平得到一个 水平组合,称为一个实验处理(treatment)。对于单因素实验,一个水平就是一个处理。 方差分析的基本功能就在于它对多组平均数差异的显著性进行检验的作用。组间 差异对组内差异的比值越大,则各组平均数的差异就越明显。通过对组间差异与组内差 异比值的分析,来推断几个相应平均数差异的显著性,这就是方差分析的逻辑。 检验步骤: 1. 提出假设:至少有两个总体平均数不相等。 2. 选择检验统计量并计算其值:几组(组数至少等于 3)测验分数假定是从几个 相应的正态总体中随机抽出的独立样本,故可用组间方差和组内方差的 F 比值来检验五个总体平均数差异的显著性。下面分几步来求 F 值:①计算平 方和(一般用原始数据计算)、组间平方和、组内平方和、总平方和;②计算 自由度;③求 F 比值。 3. 统计决断:查 F 值表,实际计算得的 F=15.72>5.99 ,则 P<0.01 ,于是根 据 F 检验统计决断规则,在 0.01 显著性水平上拒绝 H0 接受 H1。其结论为: 至少有两所中学该年级学生的数学成绩有极其显著的差异。为了便于表述和 分析,需列方差分析表。 4. 多重比较(multiple comparisons): 要知道具体哪些水平之间有差异, 有标准水平的比较、两两比较、线性对比。 第二节 两因素完全随机方差分析 1、主要内容:两因素完全随机方差分析的原理与计算 2、基本概念与知识点: 1、 功能:多因素方差分析不仅可以检验各个因素对因变量作用的显著性,而且还 可以检验因素与因素间共同结合对因变量发生交互作用的显著性。 2、 定义:自变量有两个或以上水平的因素设计 3、 三个 F 比率可以表达为: ①FA 的主效应= A 的主效应方差/误差方差;②FB 的主效应= B 的主效应方差/误差方差;③F A×FB = A×B 交互作用/误差方差。 4、 交互效应分析。 第三节 重复测量设计和混合设计的方差分析 1、主要内容:重复测量设计和混合设计的方差分析的原理与计算 2、基本概念与知识点: 1)完全随机实验设计属于被试间因素,即所有被试只接受其中一个水平的处理。 被试内因素,即每个别是接受该因素所有水平的处理。这种设计的目的是所有被试自己 做控制,使被试的各方面特点在该因素所有水平上保持恒定,以最大限度地控制有被试 的个体差异带来的变异。当一个实验设计中的所有因素都是被试内因素时,称为被试内 设计。 2)当一个实验设计中既有被试内因素,又有被试间因素时,称为混合设计。 (三) 思考与实践 思考:本章内容是实验研究数据分析的核心部分,地位十分重要,要让学 生不仅熟悉理论,更要熟练操作,确保数据分析的准确性和可靠性。 实践环节:方差分析的 SPSS 操作 课后练习:P235-237 1-8 题 (四) 教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等 第十二章 因子分析 (一) 目的与要求 了解因子分析模型及其主要概念,熟悉因子分析的过程,会解读因子分析 的结果。 (二) 教学内容 1、主要内容:因子分析的原理与计算 2、基本概念与知识点: 因子分析(factor analysis)是根据相关性大小把变量分组,使得同组内变量之间 的相关性较高,不同组之间的相关性较低。 每组变量对应于一个所谓的因子(factor)。在因子分析中,因子被认为是造成该 组变量变化的共同原因。从量表的角度看,因子是一组题目测量到的潜在特质。 1)、因子分析模型: 正交因子模型假设:公共因子都是均值为 0,方差为 1 的变量。特殊因子的均 值为 0。各公共因子之间、特殊因子与公共因子之间、特殊因子与特殊因子之间均为零 相关,即它们之间的协方差(或相关系数)等于零。 2)、因子模型基本概念: 因子负荷:变量与因子的相关系数,反映了变量对因子的依赖程度,也反映了 变量对因子的相对重要性。 共同度:因子负荷矩阵各行的平方和 方差贡献:因子负荷矩阵各列的平方和 3)、因子分析步骤: a). 计算相关矩阵。 b). 因子提取。 c). 因子旋转。 d). 计算因子得分。 e). 对因子做出解释。 4)、因子模型估计方法 主成份法(Principal Components) 极大似然法(Maximum Likelihood) 主轴因子法(Principal Axis Factors) 最小二乘法(Least Square) 广义最小二乘法(Generalized Least Square)等等。 其中比较常用的是主成份法(也是 SPSS 默认的方法) 5)、因子个数的确定 (1)以 R 的特征根(eigenvalue)是否大于 1 为标准,特征根大于 1 的特征根个数 为提取的因子数。 (SPSS 默认) (2)参考 R 的特征根的碎石图(screeplot) (3)使前 m 个因子的方差贡献达到一个适当的比例,比如 70%以上 (4)根据专业知识指定因子个数 6)、因子旋转方法 方差极大旋转(varimax) 等方差极大旋转(equamax) 方差四次幂极大旋转(quartimax)等 当对因子作正交旋转后,因子的意义仍不能得到满意的解释时,可考虑对因子作斜 交旋转。这时,对应的变换矩阵不是正交矩阵,旋转后因子之间的相关系数可以不是零。 7)、因子得分 对每个样品计算它们的因子值,可以把因子得分作为因子(潜变量)的观测值。 计算因子得分方法: 回归法(SPSS 默认) Anderson-Rubin 方法 Bartlett 方法 8)、用 SPSS 做因子分析的策略 a).做默认的主成份法因子分析,看多少个因子比较合适。 b).指定因子个数再做一次主成份法分析,作方差极大旋转,计算因子得分。尝试 解释因子。 c).指定因子个数做极大似然法因子分析,作方差极大旋转。 d).比较前两步得到的旋转后的负荷矩阵,看是否能将变量按同一种方式分组,即 看因子能否用相同的变量来表征。 e).另外指定一个因子个数,重复第 2 至 4 步,考察添加或删减的因子对方差的贡 献大小,比较一下是否能更好地对因子做出合理的解释。 f). 如果方差极大旋转后的因子仍然不好解释,尝试其他正交旋转乃至斜交旋转。 g).如果数据较多,可将它们一分为二(随机划分或奇偶划分),对每一半数进行因 子分析。 (三)思考与实践 思考:本章是课程的最后一部分,是将所学内容综合应用的部分,本章知 识的应用性很强,属于问卷研究的范畴。 实践环节:回归分析的 SPSS 操作 课后练习:P273-275 1-2 题 (四)教学方法与手段 本章教学主要采用课堂讲授、课堂讨论、实践操作等 五、各教学环节学时分配 教学环节 讲 习 题 课 教学时数 课 讨 论 课 实验 其他教 学环节 小 计 课程内容 第一章 3 第二章 3 1 第三章 3 1 第四章 3 第五章 3 第六章 3 1 第七章 3 1 第八章 3 1 第九章 5 1 第十章 8 1 第十二章 3 1 合计 40 8 48 “各教学环节学时分配”中,“其它教学环节”主要指习题课、课堂讨论、课程设计、看录 相、现场参观等教学环节。 六、推荐教材和教学参考资源 [1]温忠麟. 心理与教育统计(第二版). 广州: 广东高等教育出版社, 2016. [2] 简小珠,戴步云. SPSS 23.0 统计分析—— 在心理学与教育学中的应 用[M]. 第 1 版. 北京: 北京师范大学出版社, 2017. [3]张敏强. 教育与心理统计学(第三版). 北京: 人民教育出版社, 2010. [4]邱皓政. 量化研究与统计分析,重庆: 重庆大学出版社,2009. 七、其他说明 21 大纲修订人:方杰 修订日期:2023 年 1 月 大纲审定人: 审定日期:年月 22