穿越小说完本 ,大主宰天蚕土豆小说,小说阅读网站

OpenAI新模型o1號稱編程能力8倍殺GPT-4o，MMLU媲美人類專家，MMLU是什么？評估大模型的標準是什么？

相信大家在閱讀大模型相關文檔的時候經常會看到MMLU，BBH，GSM8K，MATH，HumanEval，MBPP，C-Eval，CMMLU等等這些都是什么？大模型訓練完成后，如何客觀地評估其效果呢？

當然我們不能依靠主觀判斷，于是研究者們制定了一系列標準，用于測評大模型在不同數據集上的表現。而這些數據集（ MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU），正是用于評估大模型性能的重要依據。

當然，它們也也可用于模型訓練。

MMLU這個基準包含STEM（科學、技術、工程、數學）、人文學科、社會學科等57個學科領域，難度從初級到高級不等。

C-Eval 是一個全面的中文基礎模型評估套件，它包含了13948個多項選擇題，涵蓋了52個不同的學科和四個難度級別。

GSM8K（Grade School Math）是一個由OpenAI發布的數據集，有8.5K個高質量語言多樣的小學數學問題組成。這些問題需要 2 到 8 個步驟來解決，解決方法主要是使用基本的算術運算（+ - / *）進行一連串的基本計算，以得出最終答案。

雖然看起來很簡單，但很多大模型的表現都不太好。

MATH是一個包含 12500 個數學競賽問題的數據集，其中的每個問題都有一個完整的推導過程。

HumanEval是由 164 個簡單編程問題組成，主要用來評估語言理解、算法和簡單的數學。

MBPP（Mostly Basic Python Programming）由大約 1000 個Python 編程問題組成，每個問題由任務描述、代碼解決方案和 3 個自動化測試用例組成。

BBH的全稱是BIG-Bench Hard，它是BIG-Bench數據集的一個子集，它專注于23個具有挑戰性的任務，這些任務超出了當前語言模型的能力范圍，BBH中的任務需要進行多步驟推理。

CMMLU，一個全面的中文大模型評估數據集。它涵蓋了67個主題，涉及自然科學、社會科學、工程、人文、以及常識等，就是中文版的MMLU。

通過這些評測數據集和評估標準，我們可以從不同角度系統地評估大模型的性能、泛化能力和魯棒性，為大模型的進一步研究和應用提供科學依據。

AI體系化學習路線

學習資料免費領

? AI全體系學習路線超詳版

? AI體驗卡(AI實驗平臺體驗權限)

? 100余講AI視頻課程

? 項目源碼《從零開始訓練與部署YOLOV8》

? 170余篇AI經典論文

全體系課程詳情介紹

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
30887

瀏覽量
269069
人工智能

人工智能

+關注

關注
1791

文章
47274

瀏覽量
238468
大模型

大模型

+關注

關注
2

文章
2448

瀏覽量
2702

【每天學點AI】實戰圖像增強技術在人工智能圖像處理中的應用

圖像增強（ImageEnhancement）是人工智能和計算機視覺中一項重要的技術，也是人工智能數據集預處理的一個重要步驟。它旨在提高圖像的質量，使其在視覺上更加清晰、細節更豐富。這項技術在自動駕駛

發表于 11-22 17:14 ?555次閱讀

【<b class='flag-5'>每天</b><b class='flag-5'>學點</b><b class='flag-5'>AI</b>】實戰圖像增強技術在<b class='flag-5'>人工智能</b>圖像處理中的應用

Meta推出可自我評估AI模型

Meta近期宣布了一項重要的人工智能進展，即將發布一系列全新的人工智能模型。其中，一款能夠自我評估的模型尤為引人注目，這一創新有望顯著減少

發表于 10-22 17:07 ?312次閱讀

《AI for Science：人工智能驅動科學創新》第6章人AI與能源科學讀后感

幸得一好書，特此來分享。感謝平臺，感謝作者。受益匪淺。在閱讀《AI for Science：人工智能驅動科學創新》的第6章后，我深刻感受到人工智能在能源科學領域中的巨大潛力和廣泛應用。這一章詳細

發表于 10-14 09:27

AI for Science：人工智能驅動科學創新》第4章-AI與生命科學讀后感

很幸運社區給我一個閱讀此書的機會，感謝平臺。《AI for Science：人工智能驅動科學創新》第4章關于AI與生命科學的部分，為我們揭示了人工智能技術在生命科學領域中的廣泛應用和

發表于 10-14 09:21

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

，推動科學研究的深入發展。總結通過閱讀《AI for Science：人工智能驅動科學創新》第二章，我對AI for Science的技術支撐有了更加全面和深入的理解。我深刻認識到

發表于 10-14 09:16

《AI for Science：人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

周末收到一本新書，非常高興，也非常感謝平臺提供閱讀機會。這是一本挺好的書，包裝精美，內容詳實，干活滿滿。《AI for Science：人工智能驅動科學創新》這本書的第一章，作為整個著作的開篇

發表于 10-14 09:12

risc-v在人工智能圖像處理應用前景分析

、RISC-V在人工智能圖像處理中的應用案例目前，已有多個案例展示了RISC-V在人工智能圖像處理中的應用潛力。例如： Esperanto技術公司：該公司制造的首款高性能RISC-V AI處理器旨在

發表于 09-28 11:00

人工智能ai 數電模電模擬集成電路原理電路分析

人工智能ai 數電模電模擬集成電路原理電路分析想問下哪些比較容易學不過好像都是要學的

發表于 09-26 15:24

人工智能ai4s試讀申請

目前人工智能在繪畫對話等大模型領域應用廣闊，ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題，本書對ai4s基本

發表于 09-09 15:36

名單公布！【書籍評測活動NO.44】AI for Science：人工智能驅動科學創新

！《AI for Science：人工智能驅動科學創新》這本書便將為讀者徐徐展開AI for Science的美麗圖景，與大家一起去了解： 人工智能究竟幫科學家做了什么？

發表于 09-09 13:54

報名開啟！深圳（國際）通用人工智能大會將啟幕，國內外大咖齊聚話AI

8月28日至30日，2024深圳（國際）通用人工智能大會暨深圳（國際）通用人工智能產業博覽會將在深圳國際會展中心（寶安）舉辦。大會以“魅力AI·無限未來”為主題，致力于打造全球通用人工智能

發表于 08-22 15:00

人工智能模型有哪些

人工智能（Artificial Intelligence, AI）作為21世紀最具影響力的技術之一，正以前所未有的速度改變著我們的生活、工作乃至整個社會結構。AI模型作為

發表于 07-04 17:28 ?886次閱讀

人工智能與大模型的關系與區別

在科技日新月異的今天，人工智能（AI）已成為推動社會進步的重要力量。而在人工智能的眾多分支中，大模型（Large Models）作為近年來興起的概念，以其巨大的參數數量和強大的計算能力

發表于 07-04 16:07 ?3714次閱讀

卡諾模型助力AI騰飛：人工智能發展新視角

在科技飛速發展的今天，人工智能（AI）已經成為引領未來社會變革的重要力量。然而，如何有效評估AI技術的成熟度和應用價值，一直是業界和學術界關注的焦點。卡諾

發表于 06-14 09:52 ?345次閱讀

嵌入式人工智能的就業方向有哪些?

。國內外科技巨頭紛紛爭先入局，在微軟、谷歌、蘋果、臉書等積極布局人工智能的同時，國內的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么嵌入式AI可就業的方向有哪些呢

發表于 02-26 10:17

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

【每天學點AI】人工智能大模型評估標準有哪些？

評論