在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

語言模型GPT-4在北京高考題目上的測試結果

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-03-22 14:13 ? 次閱讀

本文介紹并討論了對OpenAI最新發布的大語言模型GPT-4在北京高考題目上的測試結果。

當GPT-4進入北京市2022高考考場能有什么表現?

再冷的石頭,坐上三年也會暖。

GPT-4是最近很火的大型語言模型,可以在多個任務上取得人類水平的表現。在最新發布的OpenAI技術報告中,GPT-4在考試類的測試中表現搶眼,如GRE語文考試中,取得169分的成績(滿分170)。不過要是聊到考試,論考察面之廣,那還得是高考。問題來了,如果讓GPT-4來做北京市2022高考會有什么結果呢?本文就來幫大家來做這個測試。我們匯總了北京市2022高考的語文、數學、英語、物理、化學、生物、歷史、生物的考試題,盡量考慮所有的主觀題和客觀題。本文和現有高考評測的區別,之前大家只關注選擇題,這次評估我們特意將非選擇題囊括進來,同時,針對一些大型計算題(如,物理計算題)還會逐句分析GPT-4的解答過程,而不是只看答案,另外如果答錯了還會問GPT-4為什么這么答。之所以這么做,因為我們嘗試從做高考題的角度,深入分析GPT-4的能力邊界在哪,希望對于大模型有更加全面的認識。


1. 考試結果

話不多說,直接上考試結果。我們匯總了北京市2022高考的語文、數學、英語、物理、化學、生物的考試題,包括所有的主觀題和客觀題,題目和答案來自2022年高考真題。考試結果如下:

536526ca-c862-11ed-bfe3-dac502259ad0.png

(注:在測試的2022北京地理考試中,所有的題目都與圖強相關,因此無法給出評測)

上述成績不考慮英語聽說考試(50分)以及大部分卷面中需要看圖的題,如果我們粗略的按照平均正確率來算,大概是72%,按照總分750的話也就大概是541分,高出北京高考的本科批錄取控制分數線116分(北京一本和二本合并為本科批)。好在我們不用操心給GPT-4填報志愿的問題,這個評估只是為了讓大家對GPT-4的能力有個直觀的認識,后面我們將詳細來講評測過程中我們對GPT-4細分能力的發現。

2. 評估方法

盡管考試題具備參考答案,但我們的評測過程仍面臨以下幾個挑戰:(1)圖像的表示。這一問題在理科以及地理領域尤為突出,我們分為三種情況處理。首先,最簡單的情況是,圖示的存在與否并不影響題目理解,因此可以直接忽略。其次,較為復雜一點的是,圖示提供了額外的信息(比如物理中的電板電荷極性)我們會以括號輔助的形式添加到題目中,以協助GPT-4理解,前兩種情況相對較少。最困難的也是常見的情況是,題目中包含難以用語言詳細描述但對解題至關重要的圖像(物理中的電路圖,化學里的大型化學式以及地理中的地圖等),我們只能跳過該題目不進行統計。(注:截止寫稿之日,我們暫時還沒有拿到GPT-4支持圖像輸入的方式)

(2)計算符號的表示。針對數學和物理中的公式,我們發現不管用文本類輸入(如,t_0)還是用latex輸入(如,)都不影響GPT-4的理解。為了統一,我們都盡可能采用latex表達問題,因此所有考試題目都由作者手敲公式輸入,不可避免有所遺漏會采用文本輸入,不過這個我們測試過不會影響GPT-4的理解。

(3)非選擇題答案不確定。這種情況涵蓋文科作文類題目和理科證明類題目,由于很難給出有說服力的得分,因此我們不會在上面的統計表中給出分數。然而,在后續的分析環節,我們仍將考慮這些題目,對GPT-4的能力進行探討。

3. 知識存儲

大型語言模型通常都會有常識的積累,比如天空是藍色的,足球是圓的。但這里關注的知識則是側重需要學習過書本而非體驗生活就能獲取的那些知識。我們主要分2個部分來考慮,文科知識,即語文的古詩詞,歷史知識等,理科規律,如物理的牛頓定律,化學的元素特征等。

3.1 文科知識

在語文考試的詩詞補充題目中,部分詩詞填寫錯誤。只有第(3)是正確的,其他均錯誤。

53830348-c862-11ed-bfe3-dac502259ad0.png

高考語文14題

我們從知識記憶和問題理解2個角度來嘗試理解它出錯的原因。首先,經過測試發現GPT-4的知識儲備還是很強的,以第(1)問為例,我們重開窗口來單獨提問《錦瑟》中間兩聯,則會收到正確的回復:

5394afc6-c862-11ed-bfe3-dac502259ad0.png

甚至我們將這個范圍擴展到其他的課本文章也可以收到正確的回復。以朱自清散文《背影》為例,第一句為“我與父親不相見已二年余了,我最不能忘記的是他的背影。”,GPT-4回復:

53bc5c88-c862-11ed-bfe3-dac502259ad0.png

看起來記憶知識并不存在問題,可能回答問題的時候對題目的要求理解可能存在問題。因此,我們降低了題目難度,直接將問題改為“幫我填寫下面空白處的詩詞,(1)《錦瑟》中間兩聯:“莊生曉夢迷蝴蝶,望帝春心托杜鵑。_________,_________。”,經過多次測試發現,GPT-4依然很難正確,總是輕易的將其他詩詞中的句子填補進來,但是GPT-3.5在測試中,雖然原題容易答錯,但采用前述簡化后的題目則很快可以對應上正確的答案。那么GPT-4這里的考慮就有些費解了。

對于其他學科,這里簡單舉例,如政治考試中“基本認識”,如“全面建成小康社會是改革開放以來黨的全部理論和實踐的主題”是正確的,而“歷史性成就的取得表明我國已進入社會主義高級階段“是錯誤的;歷史考試中,將史料涉及的歷史事件按照時間順序排序正確,說明對史實的記憶也是正確的。

3.2 理科規律

對于理科而言,需要記憶的主要包含公式定理和基本概念。公式定理特點是只包含較少的符號,但是不能出一絲差錯,否則所有的計算都將失去意義,而化學和生物的基本概念有點類似文科的內容是需要死記硬背。通過測試發現這些對于GPT-4而言都不是問題。例如數學考試中基本數學公式:計算復數的模,圓到直線的距離;物理考試中電場強度計算公式;生物考試細菌是一種原核生物,其DNA分布在細胞質中,不在細胞核中;

53e0760e-c862-11ed-bfe3-dac502259ad0.png

化學考試中的化學反應方程,向硫化氫溶液中通入氯氣生成黃色沉淀,GPT-4能清楚描述反應生成的各種物質;

5412a3fe-c862-11ed-bfe3-dac502259ad0.png

5421d464-c862-11ed-bfe3-dac502259ad0.png

高考化學第6題

具體的例子這里不再一一細數。

4.閱讀理解

閱讀理解本身就是大型語言模型的強項,例如ChatGPT已經可以根據人類的指令完成特定的任務,如機器翻譯,情感分類等。但是在高考這個場景下,對于GPT-4而言,存在一些特殊的困難,我們分為純文本類和符號類類分別討論。首先,對于純文本類,我們所有的測試都是在全中文的場景下測試的,而GPT-4通常被認為英文的表達能力是最強的,因此跨語言的理解是一個潛在問題,例如題目的理解是否正確,尤其是在語文考試中,古文、詩詞的理解是否正確,都會影響GPT-4考試的正確率。另外,對于符號類問題,比較直接的情況就是數學公式,除此之外還有化學表達式(如,水的表達式)等。下面我們會分別進行討論。

4.1 文本理解

首先,我們可以看一下語文的詩詞鑒賞題目。詩詞語言涉及到的中文理解能力要求比簡單理解題目高不少。如高考語文詩詞賞析,杜甫的《病柏》,13小題詢問這周詩主要意象有哪些,分別說明這些意象有何意韻。


		

		
《病柏》 有柏生崇岡,童童狀車蓋。 偃蹙龍虎姿,主當風云會。 神明依正直,故老多再拜。 豈知千年根,中路顏色壞。 出非不得地,蟠據亦高大。 歲寒忽無憑,日夜柯葉改。 丹鳳領九雛,哀鳴翔其外。 鴟鸮志意滿,養子穿穴內。 客從何鄉來,佇立久吁怪。 靜求元精理,浩蕩⑥難倚賴。

參考答案中沒有固定的形式,但是提到了2個要點:


		

		
(1)意象包含病柏,丹鳳和鴟鸮 (2)病柏由盛而衰的變化,象征了唐朝從強盛到衰落的滄桑巨變;丹鳳哀鳴,象征正直之人被擯斥在外; 鴟鸮意滿,象征了奸佞小人盤踞于朝中。詩人借助這些意象表達了對國運時局的憂慮。

對比GPT-4和上面要點,首先可以看出GPT-4對各個意象的理解還是比較確切的,比如柏樹聯想到世事難料,但是這個回答其實很難給分,原因在于要點中“時代背景”是一個重要內容,GPT-4將對文章的理解落腳到了詩人自己的經歷,而不是對國運時局的感慨。本質上來說,這個問題似乎是一種通過多做題可以鍛煉出來的答題技巧,整體來說,對古詩詞理解到這個程度感覺還是可以的。5434ffb2-c862-11ed-bfe3-dac502259ad0.png

另外,在歷史考試中的一道題中我們發現GPT-4對于題意的理解有時候也會出現問題。例如:

54605004-c862-11ed-bfe3-dac502259ad0.png

這道題正確答案是B。其實這個題GPT-4答錯的原因,在于這個題面最后一句話“這意味著“中的”這“字如何理解,顯然GPT-4理解成了清政府的做法,而事實上,正確答案似乎在問“英國提出的要求”意味著什么。

縱觀所有考試來看,GPT-4在中文題目理解,甚至語文的古文、詩詞理解上大體也是達標的,但是偶爾還是會有一些理解偏差的問題。

4.2 符號理解

理科考試中經常會出現符號表達,如數學的公式,以及化學中的符號等。對于數學考試而言,我們發現不管使用文本形式輸入符號還是latex輸入,都不會影響GPT-4的理解。這個其實也在我們的意料之中。比較有趣的是化學符號其實對于GPT-4而言也不是問題。

(1)化學表達式的理解。前面的高考化學第6題中涉及到各種物質溶液,如硫化氫()溶液等,均可以被正確的理解,同時還能根據題目要求推斷出發生的反應方程式。同時,對于一些特殊的寫法,如表示化學元素鍶,38表示原子序數,也不成問題。

(2)物理變量的理解。物理考試題目中變量通常是數字加單位的形式,如 ,其中m表示米而不是新變量。在物理測試中,GPT-4依然可以很好的處理這些問題。

5. 復雜計算

在理科問題的處理上,GPT-4的答題方式遵循著一步一步思考的模式。即它會首先拆解題意,然后根據理解表達列式,最后統一求解。這個思路沒有問題,但是我們發現GPT-4解題思路可能是正確的,最后的答案卻是錯誤的,主要是解方程的能力依然存在問題。

(1)方程求解錯誤,很難修正。這里我們同樣以一道高考物理考試18題為例。GPT-4已經成功分析了題意并正確列出來了方程,需要求解的表達式,正確解答是,但是GPT-4始終無法正確求解,即便是單獨重新開一個窗口,多次生成答案,針對這個方程求解也還是算錯。相反,同樣的問題放在GPT-3.5卻可以做對,這里確實值得討論,感覺GPT-4似乎在算式求解上能力有所下降。

54943b1c-c862-11ed-bfe3-dac502259ad0.png

GPT-3.5求解方程

54c7d364-c862-11ed-bfe3-dac502259ad0.png

GPT-4求解方程出錯

(2)計算中存在筆誤,可被修正。同樣對于高考物理19題第(3)問,GPT-4在最初列式中出現問題,導致整體到計算錯誤。有趣的是,可以在問題后進行反問,“請檢查一下你做的過程是否正確“,GPT-4即可及時修正并給出正確答案。與前一種情況不同,這個我們可以理解為是一種“筆誤”,可以通過及時檢查來進行修正。

54ecebfe-c862-11ed-bfe3-dac502259ad0.png

高考物理19題(3)問錯誤列式

5504c68e-c862-11ed-bfe3-dac502259ad0.png

通過提示修改可以改正

而對已經正確的解答而言,多次提示檢查,基本不會將正確的改錯。

6. 可探索的方向

通過整體的測試,我們大概對GPT-4做高考題有了一個相對全面的認識。有人可能會問,我就想要一個能回答出標準答案的GPT-4,能有什么方法?簡單來說,可能有以下幾個思路:

(1)多做真題。從語文的古文回答上看出,GPT-4的理解能力到位但是回答技巧欠缺,針對這個問題,我們最簡單的方法就是多做高考真題。對于GPT-4而言,其實這個問題可以簡化為一個高考題問答場景下的模型微調問題。我們的目標是,讓模型可以多看一些示例的問題和標準的答案,盡量讓它的回復更貼合標準答案的方式。

(2)計算能力有待提升。從物理題的解答來看,大多數情況下,GPT-4可以根據題意列出正確的表達式,但是解方程能力有待加強。在對比GPT-3.5過程中,我們發現GPT-4能力似乎還是有所下降的。不過給出一個方程進行計算,其實可以作為一個獨立的模塊,考慮接入外部的工具來執行,會是一個較為容易的解決思路。

(3)及時檢查。從前面第5部分的經驗來看,我們可以通過提示“請檢查一下你做的過程是否正確“來督促GPT-4執行檢查,可能會降低錯誤率。

7. 未來的工作

本文盡最大努力,希望給GPT-4一個完整的高考評分,但是依然避免不了存在以下局限性。我們會在后面繼續完善整體的評估流程。

(1)缺少圖示。盡管GPT-4宣稱已經可以輸入圖像,但是截止目前,我們還沒有拿到可用的方式,所以僅在文本輸入的條件下,先進行了一輪評測,如果近期我們可以拿到支持圖像輸入的GPT-4測試資格,會進一步完善當前的評估。

(2)考題的局限性。我們目前只在北京市的2022年高考上進行了評測,考慮到不同地域和年份高考題均不一樣,為了能夠全面評估大語言模型的高考水平,我們計劃增加不同年份、地域的高考題評測,努力實現自動化、更全面的評估。

8. 總結

我們總結了GPT-4在高考測試中的結果,較為全面衡量了GPT-4的常識記憶以及推理能力,發現:GPT-4在常識記憶和閱讀理解方面表現良好,但在復雜計算方面存在一些不足。具體而言,GPT-4能很好的記憶文科知識以及理科規律,在閱讀理解上表現不俗,英語考試幾乎滿分,即便中文的古文閱讀理解以及理科符號理解也基本正確。但是我們也發現GPT-4存在的問題,對于推理類的考試表現則相對較差,如方程求解。綜上所述,盡管GPT-4在許多方面表現出色,我們也要承認它存在一些不足,并且只有我們進一步去理解它的邊界,才會有助于整個社區的發展。

審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 電荷
    +關注

    關注

    1

    文章

    631

    瀏覽量

    36142
  • 語言模型
    +關注

    關注

    0

    文章

    524

    瀏覽量

    10277
  • GPT
    GPT
    +關注

    關注

    0

    文章

    354

    瀏覽量

    15380

原文標題:GPT-4之高考評測

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    近年部分原電池知識的高考題

    近年部分原電池知識的高考題05江蘇)1、高鐵電池是一種新型可充電電池,與普通高能電池相比,該電池能長時間保持穩定的放電電壓。高鐵電池的總反應為:
    發表于 11-06 14:39 ?18次下載

    GPT-4發布!多領域超越“人類水平”,專家:國內落后2-3年

    電子發燒友網報道(文/吳子鵬)北京時間3月15日凌晨,人工智能研究公司OpenAI正式發布了其下一代大型語言模型GPT-4。目前,ChatGPT的Plus訂閱用戶已經可以使用
    的頭像 發表于 03-16 01:58 ?4707次閱讀
    <b class='flag-5'>GPT-4</b>發布!多領域超越“人類水平”,專家:國內落后2-3年

    ChatGPT升級 OpenAI史上最強大模型GPT-4發布

    是 Generative Pre-trained Transformer 4 的縮寫,即生成型預訓練變換模型 4,是一個多模態大型語言模型
    的頭像 發表于 03-15 18:15 ?2825次閱讀

    關于GPT-4的產品化狂想

    GPT-4是條件,而不是結果
    的頭像 發表于 03-26 10:48 ?3003次閱讀
    關于<b class='flag-5'>GPT-4</b>的產品化狂想

    GPT-4模型結構和訓練方法

    GPT-4 的發布報道上,GPT-4 的多模態能力讓人印象深刻,它可以理解圖片內容給出圖片描述,甚至能在圖片內容的基礎理解其中的隱喻或推斷下一時刻的發展。
    的頭像 發表于 05-22 15:21 ?2641次閱讀
    <b class='flag-5'>GPT-4</b> 的<b class='flag-5'>模型</b>結構和訓練方法

    最新、最強大的模型GPT-4將向美國政府機構開放

    最新、最強大的模型GPT-4將向美國政府機構開放 此前微軟已向其商業客戶提供了OpenAI模型,現在微軟宣布將向azure government云計算客戶開放openai的人工智能模型
    的頭像 發表于 06-08 20:15 ?1507次閱讀

    人工通用智能的火花:GPT-4的早期實驗

    人工智能(AI)研究人員一直開發和完善大型語言模型(LLMs),這些模型各種領域和任務中表現 出非凡的能力,挑戰我們對學習和認知的理解。
    發表于 06-20 15:49 ?1次下載

    GPT-4已經會自己設計芯片了嗎?

    對話,紐約大學Tandon工程學院的研究人員就通過GPT-4造出了一個芯片。 具體來說,GPT-4通過來回對話,就生成了可行的Verilog。隨后將基準測試和處理器發送到Skywater 130 nm
    的頭像 發表于 06-20 11:51 ?974次閱讀
    <b class='flag-5'>GPT-4</b>已經會自己設計芯片了嗎?

    GPT-3.5 vs GPT-4:ChatGPT Plus 值得訂閱費嗎 國內怎么付費?

    每月20美元)更智能、更準確。 OpenAI將GPT-4描述為“比其前身GPT-3.5先進10倍”。 自從OpenAI的大語言模型(LLM)GPT-
    的頭像 發表于 08-02 12:09 ?4272次閱讀
    <b class='flag-5'>GPT</b>-3.5 vs <b class='flag-5'>GPT-4</b>:ChatGPT Plus 值得訂閱費嗎 國內怎么付費?

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發布了 GPT-4模型,帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力,也引發了全民使用的熱潮。各行各領域研究人員、開發者
    的頭像 發表于 08-11 14:20 ?897次閱讀
    <b class='flag-5'>GPT-4</b>沒有推理能力嗎?

    OpenAI最新大模型曝光!劍指多模態,GPT-4之后最大升級!

    目前為止,OpenAI還沒有對爆料中的傳聞做出回應,但此前發布過多模態模型測試。CEO奧特曼回應有關GPT-5的傳聞時,也暗示過GPT-4
    的頭像 發表于 09-20 17:34 ?1229次閱讀
    OpenAI最新大<b class='flag-5'>模型</b>曝光!劍指多模態,<b class='flag-5'>GPT-4</b>之后最大升級!

    ChatGPT重磅更新 OpenAI發布GPT-4 Turbo模型價格大降2/3

    發布GPT-4 Turbo模型 北京時間11月7日凌晨兩點,OpenAI首屆開發者大會在洛杉磯正式開幕。 Sam Altman分享了ChatGPT取得的成就。“有大約200萬開發人員,
    的頭像 發表于 11-07 18:20 ?2815次閱讀
    ChatGPT重磅更新 OpenAI發布<b class='flag-5'>GPT-4</b> Turbo<b class='flag-5'>模型</b>價格大降2/3

    ChatGPT plus有什么功能?OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能

    OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能分析解答 最近的OpenAI DevDay,該組織發布了一項備受期待的公告:推出GPT-4 Turbo,這是對其突破
    的頭像 發表于 12-13 09:19 ?1143次閱讀
    ChatGPT plus有什么功能?OpenAI 發布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列推理、數學、編碼、多語言理解和視覺方面全面超越了包括
    的頭像 發表于 03-05 09:58 ?661次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發表于 03-13 13:42 ?733次閱讀
    主站蜘蛛池模板: 九九人人| 最新免费jlzzjlzz在线播放| 久久婷婷午色综合夜啪| 久久久久免费精品国产小说| 亚洲国产精品热久久2022| 奇米影视四色7777久久精品| 丁香五月缴情综合网| 四虎永久在线精品2022| 色婷婷综合久久久| 美女黄视频免费| 深夜视频在线观看免费| 高清不卡毛片| 欧美视频三区| 女人爽到喷水的视频大全在线观看 | 国产精品久久久久久久午夜片| 最近2018年中文字幕在线| 免费国产成人α片| a毛片基地免费全部香蕉| 717影院理论午夜伦不卡久久| 亚洲第一精品夜夜躁人人爽| 国产三级三级三级| 国产精品国产午夜免费福利看| 亚洲欧美精品一区二区| 国产免费一级高清淫曰本片| 我不卡老子影院午夜伦我不卡四虎 | 久久国产精品永久免费网站| 亚洲午夜久久久久影院| 一区二区中文字幕亚洲精品| 欧美午夜电影| 男人午夜影院| 午夜精品福利在线观看| 一区免费| 久久国产精品无码网站| 久久国产香蕉一区精品| 四虎tv在线观看884aa| 一国产大片在线观看| 毛片小视频| www.天天射| 亚洲精品国产成人| 97人人草| 国产性老妇女做爰在线|