AI 寫高考作文 AI 評,結果竟然……“滿分”作文氣笑語文老師

來源: 更新:

AI 寫作文早不是啥新鮮事了。比起幾年前的稚拙,現在的 AI 寫起文章來已經更加得心應手,只要給它的提示詞合適,那它們還真能寫出挺像模像樣的文章。不僅如此,AI 還能對文章做出品評,指出文章的優點和不足,還有學生根據 AI 的建議修改作文後,獲得了老師的好評。

那麼問題來了,如果讓 AI 自己寫作文,自己評分數,會出現什麼情況呢?

今天是 2025 年高考第一天,我們拿高考作文題,讓 AI 之間來個了大 PK,並讓它們互相評價,結果竟然出乎意料。

測驗方法

本次測驗選取了 7 位本地 AI 考生/考官,爲了保障大家的隱私,這裏全部使用了化名。AI 考生寫作文的時候,爲了防止作弊,均關閉了聯網搜索選項。爲了保證考生的文章深度配得上高考題,均打開了類似“深度思考”類選項。

每位考生收到的考題均爲全國卷一作文題,沒有其他提示詞。

每位考生收到的“全國卷一作文題”

每位考官收到的評分標準和提示詞也是一樣的,作文部分則直接粘貼各個 AI 考生的作文。

爲防止干擾,每批改一位考生的作文,就新建一個對話。

每位考官收到的不同考生作文並要求打分

測驗結果

經過我們的一番操作,所有 AI 考生均順利完成了作文,所有的 AI 考官也都完成了批改!結果真的太好玩了!

注:每一列的分數,表示一位 AI 考官分別給每位 AI 考生的大作打的分數

結合各位“AI 考生”的作文和“AI 老師”給出的評分,我們來一一看看結果如何。

首先,我們來給 AI 考生頒獎。

最佳作文獎

獲獎者:智言同學

智言同學作文的得分平均分爲 56.6 分,這個分數是所有考生裏最高的, 實至名歸的——全場最佳作文獎。

值得一提的是,全場唯一一個獲得過一次滿分的作文也是出自智言同學之手哦,文章最後我們也會放出滿分作文,供大家閱讀。

進步潛力獎

獲獎者:K 米同學

K 米同學獲得了 50.6 分的平均分,上升空間巨大,不過相比於人類考生……有百分之幾的考生敢說能拿到更好的成績?而且,說不定 K 米同學比較偏科,這次發揮不理想呢?

毫無爭議獎

獲獎者:心言同學

7 位 AI 閱卷老師對心言同學的打分非常接近(方差僅 2.4 ),所以它的作文成爲了成績爭議最小的作文。

爭議最大獎

獲獎者:通問同學

7 位閱卷老師對通問同學的作文打分差異非常大,欣賞通問作文的老師,給出了 58 分的高分,而不欣賞的老師,給出了 49 分。

而且 K 米作爲閱卷老師時候,拒絕給通問同學的作文打分(但並沒有給出具體理由)。但無論如何通問同學毫無爭議地獲得了“爭議最大獎”。

看完了 AI 作爲考生時候的表現,接下來我們再對 AI 作爲閱卷老師的表現,進行評價和頒獎。

鐵面無私獎

獲獎者:K 米老師

K 米老師給所有同學打出的分數平均分爲 51.7分,甚至對通問同學的作文拒絕評分,成爲了最嚴厲的閱卷老師,大家最好不要落到它手上。

甚至K 米老師給自己的作文僅打出了 47 的分數,確實客觀又鐵面無私,真是“狠起來連自己都不放過”,因此,獲得了“最鐵面無私獎”。

大家都不容易獎

獲獎者:心言老師

心言老師給所有同學打出的分數平均分是 57.1 分,算是非常仁慈了,你是不是也希望它是你的閱卷老師呢?

心如止水獎

獲獎者:智言老師

智言老師給出的分數波動最小(最高 56,最低 54),方差僅爲 0.6,或許在它看來,別太卷,大家都一樣最好。

愛憎分明獎

獲獎者:通問老師

通問老師給出的分數波動最大(最高 58,最低 47),方差 14.7。或許正是這樣的性格,才讓它寫出了連 K 米老師都拒絕打分的文章吧。

不過這裏我們得說明一下,如果我們把拒絕打分視作 0分,那愛憎分明獎非通問老師莫屬。

慧眼識人獎

獲獎者:DS 老師

DS 老師給智言同學打出了全場唯一一個滿分 60 分,給到的是都認可的。

而且,DS老師還爲智言同學寫下了這樣熱情洋溢的評語:

圖源:自己做的

金標準獎

獲獎者:D 包老師

針對每篇作文,D 包老師給出的分數與平均值的綜合差距比其他老師要小(標準差1.6)。所以,它給出的分數,堪稱打分的“金標準”。

品味獨特獎

獲獎者:K 米老師

和金標準獎相對,對於每篇作文,K 米老師給出的分數與平均值的綜合差距比別的老師的大(標準差 4.1),所以它給出的分數總是那麼獨特,就授予它品味獨特獎吧。

最高、最低、最具爭議

作文分享

先來看“滿分作文”,來自智言同學。

圖片:自己做的

接下來是“低分作文”:

圖片:自己做的

當然,作文畢竟主觀性很強,而且 AI 每次生成和評判,可能都會有一些偏差。因時間有限,測試次數較少,本次結果無法全面體現參賽 AI 的能力,僅供參考。

爲了嚴謹起見,我們還邀請了一位人類考官(蘇哲倫 上海市語文高級教師 上海市徐彙區語文骨幹教師),對這次的最佳作文做出了銳評:

蘇老師:我給這篇作文打 45 分(滿分 60 )。我對全國卷評分標準不大瞭解,但是既然第一則材料來自閱讀II《鼓書藝人》,當然不能對閱讀II的基本情節理解有很大偏差。然而,就我看到的《鼓書藝人》內容,AI 作者恐怕是在一本正經地胡說八道,或者說出現了幻覺。老舍的原文中,鼓書藝人“開不了口”,是面對被戰爭摧殘的孩子,想給他們唱一段,又唱不出。但這篇文章,變成了不知哪來的角色“白傻子”面對日寇的刀劍保持沉默。出現這樣嚴重的失誤,所以我無法給出高分。

截自本次AI最佳作文,然而老舍原文中主角名爲方寶慶

看來,想讓 AI 寫好高考作文還是任重道遠啊!最後,想問下:上面的高分和低分作文,你會打多少分呢?留言區告訴我吧~

策劃製作

作者丨丁崝 田達瑋

點評丨蘇哲倫 上海市語文高級教師 上海市徐彙區語文骨幹教師

策劃丨丁崝 林林

責編丨林林

審校丨徐來

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top