MOOC同伴互评的倾向性分析


 

MOOC同伴互评的倾向性分析

 

复旦大学计算机学院 周雅倩

 

  同伴互评(或同伴评价,英文译为Peer Assessment或者 Peer Grading)是一种基于教师制定的评估准则,学生或者他们的同伴给作业或测验评价的过程[1]。采用这种评价方式不仅节约教师的时间,而且提高学生对课程的理解。有效的同伴评分将促进学习和批判性思维[2]。

  为了锻炼学生的问题解决和表达能力,很多课程设计了大量的开放性问题。由于学习者人数众多而且开放性问题很难进行机器自动评价。同伴互评一方面可以节约教师的时间,另一方面可以使学生得到更及时的反馈。学生从评价中得到是反馈而不只是得到成绩,这种反馈不仅可以帮助学生发现他们原来思维中的错误,避免在未来的作业中犯同样的错误,甚至学会如何考试。最重要的是提供平台让学生端正学习态度,促进协调学习。

  课堂[3,4,5,6]和MOOC[7,8,9]的同伴评分过程方面已有不少相关的研究。但是,同伴评分的偏差问题,特别是内容相关的偏差问题,还是很少被研究。在学术评价方面,例如论文的同行评议,虽然评议人都是责任心强的相关领域的成熟专家,他们对评价的负责强,但是同行评议方面的失败情况并非不存在[10]。同伴互评的评分者一般是新课程的普通学习者,他们通常只有有限的知识、有限的时间和有限的经验,所以同伴评分一般认为是存在偏差,其可靠性比较有限[6,7]。

  在这篇文章中,我们将分析MOOC学习者的同伴互评过程。我们将尝试探索大规模在线开放课程(MOOC)中的同伴互评过程中的偏差现象,考察它们是什么样的,它们是如何运作的。我们首先考察数据分布,然后是评分者品质相关的行为,接着是提交内容相关的偏差,最后比较了评分和得分的一致性。

1 数据介绍

  截至2014年6月27号,共有来自122个国家和地区的26,153名同学注册《大数据与信息传播》,课程视频共被观看191,715次,讨论区共生成2,840条帖子。9次作业1次期末考试全部采用同伴互评,1,117个学习者提交了6,239份作业或期末考试,总计评价32,610次。1117个学习者每人平均提交了5.8个作业,平均每次作业有624份提交,每份提交的平均评价次数为5.2。


图 1作业提交数量统计。

图 2完成特定次数作业的学习者人数。

  从图1我们可以看到,基于每次作业或期末考试都有超过500份以上的提交。从图2我们可以看到所有作业和期末考试都参加的学习者只有200名左右,完成一半或以上的超过600名。这都远远超过了传统课堂的作业量,也正是如此,才需要采用同伴互评的方式来进行评分。

  由于作业2提交的是一幅图,而期末考试的评分准则与普通作业有较大差异,为了方便比较统计结果我们在分析中没有使用它们,下面我们将只在8次作业上进行了分析。

2 基于行为的评分倾向性分析

  评分者品质相关的行为将反映评议的可靠性。我们将研究评分者的及时性,评分者的持续性等。及时性非常重要,因为它反映了评分者的可靠性。有些时候,评分者越早提交作业和评议结果,可能表示他们更加可靠。不是所有的学习者会完成课程学习,评分者坚持学习越久,可能体现出他们更加严肃。

  我们计算评分和期望得分之间的二阶偏差来衡量评分的准确性或可靠性。用每份提交的平均评分来近似其期望得分。首先,我们考察评分者的及时性与评分准确性之间的关系。从图3我们可以看到,二阶偏差虽然随着时间差有起伏,但总体来说趋势不明显,这说明评分者的及时性跟评分的准确性无关。然后,我们考察评分者的持续性与评分准确性之间的关系。从图4我们可以看到,提交3次以上作业的评分者的二阶偏差有明显的下降,这说明坚持学习的学习者给分更准。


图 3学习者提交作业时间与成绩的关系。

图 4学习者提交作业个数与成绩的关系。

3 基于内容的评分倾向性分析

  以往的同行评议或者同伴互评方面的研究很少关注提交的内容。每个提交的内容是评分的基础。然而,对于有些评分者,仍然有些跟提交内容本身相关的偏差。例如,有些评分者会更喜欢长提交,有些会接受大众化想法的提交,有些可能喜欢内容比较新颖的提交。由于他们有限的知识、有限的时间和有限的经验,每个评分都会有些跟提交内容相关的特殊喜好或者偏差。


图 5学习者提交作业长度的分布。

图 6学习者提交作业长度与得分的关系。

  虽然作业对提交长度的要求是400字到500字,但是学习者们还是倾向于提交比较长的提交,平均提交长度是549个字。从图5我们可以看到只有59%的提交符合长度的要求,14%的提交过短,27%的提交过长。

  虽然9次作业的长度分值都是2分,但是主题和组织方面的分值有的是4分有的是5分,所以我们把评分尺度进行了规范化,使得主题和组织方面的分值都规范成4分。我们在8次作业(作业2除外)上进行了分析,长度方面的平均得分是1.5,主题方面的平均得分是2.9,组织方面的平均得分是3.0。

  从图6我们可以看到虽然较长的提交对主题和组织方面的影响不明显,但是过长的提交会降低长度方面的得分,所以长提交并不能取得更高的分数。

  同伴互评是一种特殊的评议,因为每个评分者本身也都是被评议的对象,他们的提交是个相对窄的主题,通常会有些共同的想法或主题。所以,我们除了研究他们之间的评议关系,还要研究评分者和被评分者的提交之间的相似性和新颖性。


图 7提交内容和得分的相关性。

  为此我们基于向量空间表示,计算了所有评分者提交和被评提交之间的文本相似度,然后计算了每个提交的得分与其所有评分者的平均文本相似度之间的普阿松相关系数。图7中的线条表示每次作业的平均普阿松相关系数,从图中我们可以看到,作业的文本相似度与评分之间的相关性并不显著。这也从一个方面说明了开放问题的回答多样性高。

4 得分与评分

  最后我们对评分和得分进行了统计分析。我们通过它们的平均方差来考察评分和得分的一致性问题,从而考察同伴互评的可靠性。非严肃评分者的评分分布可以预见将比较集中。在某些极端情况下,他们可能会给所有的提交一个相同的分数。

  从数据统计上来看,只有大约0.5%的提交的所有评分者的评分是一致的,而大约10% 的评分者给所有的评议作业打相同的分数。这说明评分的一致性不高,而有些评分可能比较随意。从图8我们可以看到,从第4次作业开始,评分和得分的方差都有明显的下降。这一方面是因为我们第4次作业开始主题和组织评分从原来的3级改为了5级;另外一方面经过3次左右的评议,评分者们对提交评价的一致性有了提高。总的来说,评分(grading)比得分(score)方差小。


图 8作业得分方差与评分方差比较。

5 总结与展望

  提交的内容,评议者的行为以及评议者和被评议者之间的关系对于同伴评分的质量是非常重要的。这些研究主题值得探索,我们基于复旦大学在Coursera上的第一门课程《大数据与信息传播》设计数据分析实验。国籍和年龄等背景信息是评议者的基础属性,自然会影响他们的评议行为。有些文化背景的评议者可能倾向于比较平均化的评分,而有些可能倾向于差异化的评分。年长的评议者由于他们的知识和经验更加丰富,可能会更可靠。但是由于目前我们在这方面的数据比较有限,所以没有做相应的分析。

  我们通过分析该课程的十次作业,发现了一些有趣的现象: 1、评分者的评分偏差与其及时性无关;2、坚持学习的评分者的评分偏差较小;3、长提交并不会取得高得分; 4、评分比得分方差小。这些现象说明虽然同伴打分的准确性还有待提高,同伴打分还是有一定依据的,积极学习者的评分比较可靠。

  为了提高同伴评分的质量,我们需要建立切实可行的评价准则。在正式互评之前,教师首先可以找一些例子,让学生们知道什么是“好的”提交,什么是“不那么好的”提交以及什么是“不好的”提交。然后列出在评价准则中用到的指标,明确各个指标的质量等级,并且让学生在例子上做些评价的练习。当学生们的互评结果的偏差达到合理范围之后,就可以进行正式互评。互评结束之后,学生们可以基于反馈修改作业,若有争议的情况,可以由教师来进行最终的评价。

  虽然开放性问题的回答内容多样,没有参考答案,但是还是可以制定出评价准则。基于这些评价准则和课程背景知识,我们未来可以探索使用自然语言处理技术和机器学习方法来对作业进行自动评分。

参考文献
[1] Sadler P M, Good E. The impact of self-and peer-grading on student learning[J]. Educational assessment, 2006, 11(1): 1-31.
[2] Herrington A J, Cadman D. Peer review and revising in an anthropology course: Lessons for learning[J]. College Composition and Communication, 1991: 184-199.
[3] Topping K. Peer assessment between students in colleges and universities[J]. Review of Educational Research, 1998, 68(3): 249-276.
[4] Falchikov N, Goldfinch J. Student peer assessment in higher education: A meta-analysis comparing peer and teacher marks[J]. Review of educational research, 2000, 70(3): 287-322.
[5] Costello J, Pateman B, Pusey H, et al. Peer review of classroom teaching: an interim report[J]. Nurse Education Today, 2001, 21(6): 444-454.
[6] Jaillet A. Can Online Peer Assessment Be Trusted?[J]. Educational Technology & Society, 2009, 12(4): 257-268.
[7] Piech C, Huang J, Chen Z, et al. Tuned models of peer assessment in MOOCs[J]. arXiv preprint arXiv:1307.2579, 2013.
[8] Vozniuk A, Holzer A, Gillet D. Peer assessment based on ratings in a social media course[C]//Proceedings of the Fourth International Conference on Learning Analytics And Knowledge. ACM, 2014: 133-137.
[9] Suen H K. Peer assessment for massive open online courses (MOOCs)[J]. The International Review of Research in Open and Distance Learning, 2014, 15(3).
[10] Mahoney M J. Publication prejudices: An experimental study of confirmatory bias in the peer review system[J]. Cognitive therapy and research, 1977, 1(2): 161-175.