Skip to content

Latest commit

 

History

History
257 lines (177 loc) · 17.8 KB

README.md

File metadata and controls

257 lines (177 loc) · 17.8 KB

SuperCLUEgkzw

2023年中文大模型高考作文题做的怎么样?SuperCLUE高考作文机器自动阅卷系统

中文通用大模型-高考作文-个例研究

模型 总分 全国甲卷-时间 全国乙卷-多元 新课标I卷-故事 新课标II卷-安静
GPT-4 52.59 52.00 52.00 54.67 51.67
GPT-3.5-turbo 51.83 54.00 52.33 49.33 51.67
360智脑 50.00 48.00 49.33 54.33 48.33
讯飞星火 50.58 49.33 49.67 52.33 51.00
ChatGLM-130B 49.75 52.67 46.00 50.00 50.33
MiniMax-abab5 51.33 51.67 53.33 50.00 50.33
文心一言 51.00 49.67 51.67 54.00 48.67
ChatGLM-6B 49.25 50.00 47.33 54.00 45.67
MOSS-16B 49.17 51.33 49.00 47.00 49.33

注:本次实验仅用于尝试针对中文大模型进行高考作文的机器自动阅卷的可能性,但不代表机器自动阅卷的准确率。

作文题目

1.全国甲卷
试题内容:--时间
阅读下面的材料,根据要求写作。(60分)
人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。
这句话引发了你怎样的联想与思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

2.全国乙卷
试题内容:--大家乐
阅读下面的材料,根据要求写作。(60分)
吹灭别人的灯,并不会让自己更加光明;阻挡别人的路,也不会让自己行得更远。
“一花独放不是春,百花齐放春满园。”如果世界上只有一种花朵,就算这种花朵再美,那也是单调的。
以上两则材料出自领导的讲话,以生动形象的语言说出了普遍的道理。请据此写一篇文章,体现你的认识与思考。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

3.新课标I卷
试题内容:--故事
阅读下面的材料,根据要求写作。(60分)
好的故事,可以帮我们更好地表达和沟通,可以触动心灵、启迪智慧;好的故事,可以改变一个人的命运,可以展现一个民族的形象……故事是有力量的。
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

4.新课标II卷
试题内容:--安静
阅读下面的材料,根据要求写作。(60分)
本试卷语言文字运用II提到的“安静一下不被打扰”的想法,在当代青少年中也不鲜见。青少年在学习、生活中,有时希望有一个自己的空间,放松,沉淀,成长。
请结合以上材料写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

测评方法

1.使用2023年高考作文题目,供4道;

2.针对每一个模型,轮流输入高考作文题,然后获得答案;

3.针对每个作文题目和模型写的作文,结合高考作文评分规则,形成一个完整的输入发送给GPT-4;

完整的Prompt结构如:

现在有一个高考作文题目,需要你进行一个评分,满分60分。
要求:请认真阅读作文要求、作文批改要求和待批改作文,然后进行批改。最后返回:
1)给出100个字以内的作为点评;
2)基于作文批改要求,给出每部分的得分;
3)给出一个最终的分数;
一、作文要求
   <完整的作为题目和要求>
二、作文批改要求
   <高考作文批改要求,包括但不限于内容项(20分)、表达项(20分)和发展等级(20分)和其他要求>
三、待批改作文
   <模型写的作文>
  1. 针对同样的输入Prompt,发送3次给GPT-4,获得3个点评和评分(稍后将报告标准差)。

  2. 人工校验分数。校验内容包括三大分数累计是否计算正确,计算环节是否有明显错误。

  3. 计算每一个题目的平均分,并根据4个不同题目汇总出一个总分(即平均分)

案例

题目-时间:
阅读下面的材料,根据要求写作。(60分)
人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。
这句话引发了你怎样的联想与思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
模型1:ChatGLM-6B
科技时代时间观念的转变

随着科技的不断发展,人们的生活节奏也不断地加快。人们利用科技的时间越来越长,而利用科技的时间也越来越短。人们因为技术的进步而能够更好地掌控时间,但也有些人因为使用科技而成为了时间的仆人。这种时间观念的转变,引发了人们对于时间的使用和掌控的思考。

科技的进步为人们提供了更多的时间,让人们能够更好地掌控自己的时间。比如,人们可以利用手机、电脑等工具来提高工作效率,减少时间浪费。再比如,人们可以通过智能手表、智能手环等智能设备来计算时间,更好地管理自己的时间。这些科技手段为人们提供了更多的便利。然而,这些便利也带来了一些问题。有些人因为沉迷于科技产品,而忽略了自己的时间观念,成为了时间的仆人。

有些人因为使用科技而成为了时间的仆人,这主要是因为他们缺乏时间观念。他们认为使用科技产品能够更好地掌控时间,而忽略了时间的重要性。他们认为时间是一个无限的东西,可以随意浪费,而忽略了时间的流逝。他们缺乏时间观念,不知道时间对于一个人的重要性,因此才会导致时间的浪费。

那么,如何才能够更好地掌控自己的时间,成为时间的仆人呢?首先,我们需要建立时间观念。我们需要意识到时间是一个有限的东西,不能无限地流逝。我们需要珍惜时间,把握时间,不要让时间白白地流逝。其次,我们需要合理安排时间。我们需要制定一个合理的日程表,安排好每天的工作和学习。我们还需要学会拒绝一些无关紧要的事情,把时间和精力投入到更有意义的事情上。最后,我们需要学会利用科技,把科技产品作为一种工具,来提高工作效率,减少时间浪费。

科技的进步为人们提供了更多的时间,让人们能够更好地掌控自己的时间。但是,有些人因为使用科技而成为了时间的仆人,这主要是因为他们缺乏时间观念。我们应该建立时间观念,合理安排时间,利用科技提高工作效率。只有这样,我们才能够更好地掌控自己的时间。

模型点评

点评1:
     一、100字以内的点评:
    
    该生作文围绕“科技进步与时间观念的转变”这一主题展开,提出了科技为人们带来时间使用便利这一观点,分析了由于缺乏时间观念而成为时间仆人的原因,并提出了较为合理的解决措施,内容较为充实。但是,生词较多,句子较长,可采用更加简洁流畅的语言表达自己的观点,使文章更具可读性。总体来说,这是一篇较为成熟的高考作文。
    
    二、基于作文批改要求,给出每部分的得分:
    
    1)内容项(20分):17分
    题意和内容比较充实,词汇丰富,论据真实。但中心稍显不够明显,内容尚可丰富。
    
    2)表达项(20分):16分  
    语言较为流畅,但句子较长和生词较多,可使语言表达更加简洁明了。结构较为清晰,文体选择较为合适。卷面较为规范。
    
    3)发展等级(20分):17分
    内容较为丰富,表达较为精妙,可增添更多流畅的语言表达和鲜明的事例以提高发展性。
    
    4)其他项(扣分):0分
    无扣分情况。
    
    三、最终分数:50分
    
点评2:
    这里是对该作文的评分及点评:
    点评(87字): 此作文观点清晰,立意明确,结构完整。论证较充分,语言较流畅。但在表达上仍有些不够精炼之处,如在第三段末尾重复了第一段的观点。总体而言,此作文居高分之列,表达较为成熟,值得称赞。
    1)内容项(18分):
    观点明确,论证较充分,论据真实。但在表达上略显臃肿,第三段末尾重复了第一段的观点。
    2)表达项(17分):
    结构完整,行文连贯,语言较流畅。但在表达上仍有些不够精炼之处,如在第三段末尾重复了第一段的观点。 文体选择恰当。
    3)发展等级(18分):
    观点独具匠心,较有说服力。论证丰富,例子恰当。言语较国粹。
    4)扣分项(-2分):
    出现2处标点符号错误,扣2分。
    最终分数:内容项18分+表达项17分+发展等级18分-扣分项2分=51分

点评3:
    一、点评(100字以内):
    作文结构清晰,论点明确。作文围绕时间观念的转变展开论述,提出科技带来便利的同时也带来时间观念缺失的问题,并提出自己的解决方法,具有一定的思考性。语言流畅,表达清晰。但是,部分论据不够充实,例证不够丰富。作文结尾重复前文观点,可进一步深化。
    二、基于作文批改要求,给出每部分的得分:
    1)内容项(20分):16分。题意和中心明确,但论据和例证不够丰富,可得16分。
    2)表达项(20分):18分。语言流畅,表达清晰,结构也较清晰。但有个别句式简单,可得18分。
    3)发展等级(20分):15分。有一定的思考性,提出自己的方法论,但可进一步丰富和深化,故在二等可得15分。
    三、最终分数:16+18+15=49分
完整的批改作文的输入(即Prompt文本)
现在有一个高考作文题目,需要你进行一个评分,满分60分。
要求:请认真阅读作文要求、作文批改要求和待批改作文,然后进行批改。最后返回:
1)给出100个字以内的作为点评;
2)基于作文批改要求,给出每部分的得分;
3)给出一个最终的分数;


一、作文要求:
阅读下面的材料,根据要求写作。(60分)
人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。
这句话引发了你怎样的联想与思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。


二、作文批改要求:
高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定
1、基础等级
基础等级分内容和表达两项,基础等级的评分,以题意、内容、语言、文体为重点,全面衡量。

1)内容项(20分)——题意、内容

其重点是题意、内容。对于内容要综合考虑,对于材料的把握虽然符合题意,但文章不好、中心基本明确、内容单薄、感情基本真实的,可以在三等上打分。

考生的考卷中所述论据的真实性要特别注意,如果是编造,或者有明显错误,或者不能佐证文章观点的,要适当扣分。

2)表达项(20分)——语言、文体和结构、卷面

其重点是作文的结构、语言、文体、卷面等,但也要综合考量。

根据表达项的细则,在“内容”评等的基础上,除了在相应的等级上评分外,还可以考虑在上一等或下一等打分。

在“内容”等级判分的基础上,表达项原则上不跨等级给分,如内容判三等,表达不能在一等给分,只能在三等或二等或四等给分。

2、发展等级(20分)
基础等级分要与发展等级分相匹配,发展等级分不能跨越基础等级的得分等级。

1)发展等级分原则上随内容或表达的等次给分

如内容二等,表达三等,发展等级一般可在二等给分。

2)发展等级一般不在内容或表达的下一等给分

如内容一等,表达二等,发展等级一般在一等或二等给分。

3)发展等级在内容给分的基础上,一般不跨等给分

如内容三等,发展等级不能在一等给分。

4)内容在四等的,“发展等级”可以给1到2分;确为抄袭的,“发展等级”不给分。

发展等级评分。不求全面,可根据“特征”4项16点中若干突出点按等评分。
①深刻
②丰富
③有文采
④有创意

3、关于作文的其他项评定
1)扣分项评定

出现错别字,1个错别字扣1分,重复不计,扣完5分为止;标点符号出现3处以上错误的酌情扣分;不足字数者,每少50字扣1分;无标题扣2分。

2)残篇评定

400字以上的文章,按评分标准评分,扣字数分。(少50个字扣1分)

400字以下的文章,20分以下评分,不再扣字数分。

200字以下的文章,10分以下评分,不再扣字数分。

只写一两句话的,给1分或2分,不评0分。

只写标题的,给1分或2分,不评0分。

完全空白的,评0分。

三、待批改作文
科技时代时间观念的转变

随着科技的不断发展,人们的生活节奏也不断地加快。人们利用科技的时间越来越长,而利用科技的时间也越来越短。人们因为技术的进步而能够更好地掌控时间,但也有些人因为使用科技而成为了时间的仆人。这种时间观念的转变,引发了人们对于时间的使用和掌控的思考。

科技的进步为人们提供了更多的时间,让人们能够更好地掌控自己的时间。比如,人们可以利用手机、电脑等工具来提高工作效率,减少时间浪费。再比如,人们可以通过智能手表、智能手环等智能设备来计算时间,更好地管理自己的时间。这些科技手段为人们提供了更多的便利。然而,这些便利也带来了一些问题。有些人因为沉迷于科技产品,而忽略了自己的时间观念,成为了时间的仆人。

有些人因为使用科技而成为了时间的仆人,这主要是因为他们缺乏时间观念。他们认为使用科技产品能够更好地掌控时间,而忽略了时间的重要性。他们认为时间是一个无限的东西,可以随意浪费,而忽略了时间的流逝。他们缺乏时间观念,不知道时间对于一个人的重要性,因此才会导致时间的浪费。

那么,如何才能够更好地掌控自己的时间,成为时间的仆人呢?首先,我们需要建立时间观念。我们需要意识到时间是一个有限的东西,不能无限地流逝。我们需要珍惜时间,把握时间,不要让时间白白地流逝。其次,我们需要合理安排时间。我们需要制定一个合理的日程表,安排好每天的工作和学习。我们还需要学会拒绝一些无关紧要的事情,把时间和精力投入到更有意义的事情上。最后,我们需要学会利用科技,把科技产品作为一种工具,来提高工作效率,减少时间浪费。

科技的进步为人们提供了更多的时间,让人们能够更好地掌控自己的时间。但是,有些人因为使用科技而成为了时间的仆人,这主要是因为他们缺乏时间观念。我们应该建立时间观念,合理安排时间,利用科技提高工作效率。只有这样,我们才能够更好地掌控自己的时间。

详细测试数据

高考作文-大模型测评 包括国内外大模型的作文,使用的Prompt,各个题目的分数。

局限性和不足

1)本次测评只使用了4到题目,目的仅是个例研究,并进行自动化测评的尝试;它不是大范围的测评或基准测评。
2)使用GPT-4做模型评估的,虽然在Vicuna、凤凰等模型中有先例,但GPT-4给出的点评和分数,仅做参考,并不是唯一的。
3)仅使用了9个模型进行测评,没有充分覆盖国内一些闭源和开源模型。
4)本次测试没有引入人类测评;虽然后续不排除引入人类测评,作为对比。

沟通与交流

相关阅读

1、300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了

2、GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型