在测验统计中还经常用到标准差,标准差是表征一组测验数据的离散程度的量,用s表示。
2.物理测验的评价指标:信度、效度、难度和区分度
(1)信度
信度是指一次测验结果稳定性、可靠性的程度,是描述一份试卷可靠性指标。信度的计算方法很多,这里只介绍一种实际应用较多的折半法,即折半信度的计算方法。首先将一份试卷分成尽可能等值的两半(可将试卷按奇、偶数分成两份),使这两份试卷考查目的、内容、题型、题数、难度分布、分值分配等相同或大致相同,这样就相当于把其中的一半试卷在相同的条件下,对同一批学生考了两次,从而考查考生在两半测验上得分的一致程度。先计算两半测验的关联程度(即相关系数),用r表示。若考生总数为n,用 表示两组试卷分数,则:
( )
最后用斯皮尔曼-布朗公式求出折半信度:
测验的折半信度为0.8为基本合格。影响信度的主要因素主要有评分的标准和试题数量,要提高信度,就要求排除评分的主观随意性,客观评分;题量要足够多。
(2)效度
效度是测验的准确性指标。效度可分为两类,一类称为内容效度,另一类称为效标效度,对学生学业成就测验考查的指标主要是内容效度,所谓内容效度是指测验内容对所要测量内容的相符程度。分析内容效度从以下两方面考虑:
①要从测验的教材内容范围(覆盖面)和教育目标以及它们所占的比例分析。
②考查题目内容与命题的双向细目表是否相符,参考答案、评分标准是否合理。
(3)难度
难度指测验的难易程度,难度的数值用P表示。
对选择题或判断题(也称二值性试题),若总人数为n,某题答对人数为R,难度的计算公式为
对于非选择题和判断题(非二值性试题),可用某个题目所得的平均数 的比值来计算难度的数值。
这里计算的难度数值实际指通过率,P值越大,难度则越小;P值越小,难度则越大。一般P值在0--0.3之间为较难;在0.3--0.7之间为适中;在0.7--1.0之间为较易。
(4)区分度
区分度指题目对不同学生的区分程度(或鉴别力)。
区分度计算方法很多(曲线法、相关法、极端组法)常用的方法是极端组法,计算步骤如下:
首先将全体学生按总分由高到低的顺序排列(大数量考生可采取抽样排序),其次将前面占总体学生人数的27%的试卷划为一组,称为高分组,后面占总体学生人数的27%试卷划为一组,称为低分组,则区分度(用D表示)为某题高分组通过率PH 与低分组通过率PL的差值。
或 (二值性试题,n为高分组或低分组的人数);
(非二值性试题)
一般认为用极端组法求得的区分度数值在0.40以上为优秀;0.30--0.39 较好;0.20--0.29 需改进,0.19以下认为不可使用,区分度差。
难度与区分度有密切的关系。一般情况下难度适中的题目,区分度都较高,太难、太易的题目,区分度都较低。
交流与讨论:
(1)你认为适宜难度的试题对测验有哪些作用?
(2)你认为传统的教学测验和学业成就评价有哪些不合理的地方?
三、标准分数
一般情况下,由测验的实际分数不能看出考生在团体中的位置,有必要将实际分数转化为标准分数,标准分数是以标准差为单位,表示一个分数在团体中的相对位置。
标准分数用符号Z表示,也称Z分数,计算公式为
其中s是这组分数的标准差, 是一组分数的平均数, 是某一原始分数。标准分数可得正值,可为负值。平均数以上的各数的Z分数为正;平均数以下各数Z分数为负;等于平均数时,Z分数为零。
标准分数的应用主要在于确定原始分数在分数分布中的相对地位;也可接受代数运算,有广泛的应用。
例如:某班学生李红在期中、期末考试中,语文成绩分别是88和84,物理成绩分别是77和80,是否由此可得结论:李红物理学习有进步,语文学习有退步?(各科班级平均分、标准差已知,见表7-3)
表7-3
科目 班级平均分 班级标准差s 李红原始分数 李红标准分Z
期中 期末 期中 期末 期中 期末 期中 期末
语文 80 74 8 8 88 84
物理 66 69 9 9 77 80
解:这是对同科不同次考试成绩进行比较的问题,用标准分数进行分析。
把数值代入式 得
Z语中=(88-80)/8=1 ,Z物中=(77-66)/9=1.22 ,
Z语末=(84-74)/8=1.25 ,Z物末=(80-69)/9=1.22
结果说明,李红的语文考试分数虽然降低了,但标准分数从1升至1.25,也就是相对位置升高了。物理考试分数虽然提高了,但标准分一样,即相对位置没有变化,因此不能简单地认为李红语文学习退步了,物理学习有进步。
在高考招生中,通常采用各科成绩相加比较总分高低的办法来录取学生,使用范围较广泛。但却有不够合理、不够科学的成分。这是因为各个学科考试试题的难易程度总不会相同,评分标准也不一样,这必然形成有的科目的考分偏高,有的科目考分偏低,因此各科目的分值并不相同。这种情况下,将各科成绩相加求和,比较总分就不合理了。如果先将各原始分数转换成标准分数,不管各科目的原始分数的平均分和标准差有多不同,一经转化成标准分数,就变为以平均数为零,标准差为1的标准形式。也就是说,各科的标准分数的单位都相同。因此,将考生的各科标准分相加求和,来比较总分的高低就比较科学合理了。
在标准分数Z的应用中,由于标准分数Z分值过小,并往往带有小数和负值等缺陷,在许多情形下直接使用不大合乎人们表示分数的习惯,故通常把标准分数Z通过线性变换,转到更大的标准分数量表上,其一般转换公式为:
T=a+bZ
上式中,a和b为选定的两个常数,Z为标准分数,T为线性变换的标准分数。常见的有如下几种:
①教育与心理测验中的T分数:T=50+10Z
②韦氏智力量表中各分测验的量表分:T=10+3Z
韦氏智力量表智商(离差智商):IQ=100+15Z
③美国大学入学考试报告分数:CEEB=500+100Z
④为出国人员举行的英语水平考试:EPT=90+20Z
⑤美国教育测验中心举办“托福”考试:TOEFL=500+70Z