神武八荒一颗小说,手机推荐排行榜,古风

電子發(fā)燒友網(wǎng)報(bào)道（文/吳子鵬）近兩天，原本就火熱的人工智能大模型再度被澆上了一桶油，話(huà)題熱度更勝?gòu)那啊２贿^(guò)，這一次大家探討的并不是大模型前景和算力這些，而是大模型之間互薅羊毛的問(wèn)題。根據(jù)微博知名博主@闌夕爆料，對(duì)谷歌Gemini進(jìn)行測(cè)試時(shí)，如果用中文詢(xún)問(wèn)Gemini的身份，其回答竟然是百度文心一言。

更讓人大跌眼鏡的是，測(cè)試人員可以使用“小愛(ài)同學(xué)”“小度”等提示詞喚醒Gemini。并且，Gemini還能夠告訴測(cè)試人員，自己是如何獲取到百度的訓(xùn)練數(shù)據(jù)的。

網(wǎng)傳對(duì)話(huà)場(chǎng)景

網(wǎng)傳對(duì)話(huà)場(chǎng)景

不過(guò)，此則消息應(yīng)該是很快就引起了谷歌技術(shù)人員的關(guān)注，在消息曝光不久后，Gemini應(yīng)對(duì)上述提示詞和問(wèn)題的方式就發(fā)生了改變。通過(guò)“小愛(ài)同學(xué)”“小度”等提示詞無(wú)法再喚醒Gemini，且對(duì)于相關(guān)問(wèn)題的闡述也發(fā)生了變化，顯然谷歌技術(shù)人員很快修復(fù)了一些bug。

谷歌Gemini飽受質(zhì)疑

當(dāng)?shù)貢r(shí)間12月6日，谷歌宣布推出“最大、最強(qiáng)、最通用”的新大型語(yǔ)言模型Gemini，我們對(duì)此也進(jìn)行了專(zhuān)門(mén)的報(bào)道。在發(fā)布會(huì)上谷歌聲稱(chēng)，在32項(xiàng)廣泛使用的基準(zhǔn)測(cè)試中，Gemini Ultra獲得了30個(gè)SOTA（State of the art，特指領(lǐng)先水平的大模型）。這也就意味著，Gemini 1.0版本在文本、代碼、音頻、圖像和視頻處理能力方面，以及推理、數(shù)學(xué)、代碼等方面都吊打GPT-4。

同時(shí)，在發(fā)布會(huì)上谷歌還展示了Gemini相關(guān)的能力。比如，Gemini可以非常高效地從數(shù)十萬(wàn)份文件中獲取對(duì)科學(xué)家有用的數(shù)據(jù)，并創(chuàng)建數(shù)據(jù)集；Gemini可以在世界上最受歡迎的編程語(yǔ)言（如Python、Java、C++和Go）中理解、解釋和生成高質(zhì)量的代碼。

不過(guò)，谷歌是通過(guò)視頻展示的Gemini的相關(guān)能力，而不是通過(guò)現(xiàn)場(chǎng)實(shí)操。于是乎，就在谷歌發(fā)布會(huì)的次日，有視頻制作人員質(zhì)疑稱(chēng)，谷歌的演示視頻并不是實(shí)錄，而是剪輯的。隨后，谷歌在博客文章中解釋了多模態(tài)交互過(guò)程，并提到了視頻演示中的猜拳，谷歌承認(rèn)，不同于視頻中對(duì)于猜拳手勢(shì)的快速反應(yīng)，只有在向Gemini同時(shí)展示這三個(gè)手勢(shì)并提示其這是游戲時(shí)，Gemini才會(huì)得出猜拳游戲的結(jié)論。

圖源：谷歌博文

因此，現(xiàn)在很多人都認(rèn)為谷歌夸大了Gemini的能力，只有使用靜態(tài)圖片和多段提示詞拼湊，Gemini才能夠顯示出多模態(tài)的能力，這和谷歌宣稱(chēng)的實(shí)時(shí)多模態(tài)反應(yīng)明顯是不相符的。

大模型之間互薅羊毛

除了性能質(zhì)疑之外，此次事件則揭露了大模型發(fā)展另一個(gè)規(guī)則——互薅羊毛。實(shí)際上，在Gemini自曝是百度文心一言之前，國(guó)內(nèi)字節(jié)跳動(dòng)就發(fā)生了相關(guān)問(wèn)題。

近日，有外媒報(bào)道稱(chēng)，字節(jié)跳動(dòng)在使用OpenAI技術(shù)開(kāi)發(fā)自己的大語(yǔ)言模型，違反了OpenAI服務(wù)條款，導(dǎo)致賬戶(hù)被暫停。對(duì)此，字節(jié)跳動(dòng)相關(guān)負(fù)責(zé)人向記者回應(yīng)稱(chēng)：今年年初，當(dāng)技術(shù)團(tuán)隊(duì)剛開(kāi)始進(jìn)行大模型的初期探索時(shí)，有部分工程師將GPT的API服務(wù)應(yīng)用于較小模型的實(shí)驗(yàn)性項(xiàng)目研究中。該模型僅為測(cè)試，沒(méi)有計(jì)劃上線(xiàn)，也從未對(duì)外使用。4月公司引入GPT API調(diào)用規(guī)范檢查后，這種做法已經(jīng)停止。字節(jié)跳動(dòng)稱(chēng)，后續(xù)會(huì)嚴(yán)格遵守OpenAI的使用協(xié)議。

從Gemini調(diào)整之后的回復(fù)來(lái)看，其在訓(xùn)練過(guò)程中確實(shí)使用了百度文心一言的訓(xùn)練數(shù)據(jù)，這其實(shí)也無(wú)可厚非。百度文心一言在中文理解及相關(guān)的多模態(tài)生成能力方面確實(shí)處于領(lǐng)先的位置，那么背后的原因定然是因?yàn)榘俣日莆罩|(zhì)量相對(duì)更好的中文訓(xùn)練數(shù)據(jù)集，因此其他大模型如果想要在中文對(duì)話(huà)方面取得進(jìn)展，使用文心一言的訓(xùn)練數(shù)據(jù)確實(shí)是最高效的方式。

另外，除了字節(jié)跳動(dòng)，此前谷歌也被質(zhì)疑使用OpenAI數(shù)據(jù)來(lái)訓(xùn)練Bard，最終谷歌的回應(yīng)是Bard沒(méi)有使用ShareGPT或是ChatGPT的任何數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。另外，國(guó)內(nèi)也有很多公司被質(zhì)疑是采用OpenAI數(shù)據(jù)來(lái)完善自己的大模型。不過(guò)，這種行為大都見(jiàn)不得光，因此都被否認(rèn)了。

為什么其他大模型頻傳借用OpenAI數(shù)據(jù)來(lái)訓(xùn)練呢，重要原因在于GPT-4性能領(lǐng)先一個(gè)重要的原因就是數(shù)據(jù)集質(zhì)量更高。根據(jù)semianalysis發(fā)布的《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》文章，GPT-4是一個(gè)使用1.8萬(wàn)億巨量參數(shù)訓(xùn)練的模型框架，而GPT-3只有約1750億個(gè)參數(shù)，另外GPT-4擁有16個(gè)專(zhuān)家模型，每個(gè)MLP專(zhuān)家大約有1110億個(gè)參數(shù)。這就是為什么在展示Gemini Ultra的MMLU訓(xùn)練時(shí)，谷歌將“CoT@32”進(jìn)行小字注釋?zhuān)鞧emini Ultra的MMLU測(cè)試使用了思維鏈提示技巧，嘗試了32次并從中選擇最好結(jié)果。與之對(duì)比，GPT-4無(wú)提示詞技巧給5個(gè)示例。就這樣，GPT-4的成績(jī)?yōu)?6.4%，依然高于Gemini Ultra的83.7%。

另外，OpenAI用13萬(wàn)億的token訓(xùn)出了GPT-4。因?yàn)闆](méi)有高質(zhì)量的token，這個(gè)數(shù)據(jù)集還包含了許多個(gè)epoch。

綜上所述，雖然GPT-4的訓(xùn)練數(shù)據(jù)規(guī)模沒(méi)有官方說(shuō)明，但是semianalysis文章可信度很高，這個(gè)規(guī)模比Gemini Ultra宣稱(chēng)的萬(wàn)億似乎更強(qiáng)，也不怪大家都想用GPT調(diào)優(yōu)自己的模型。

當(dāng)然，每一個(gè)模型都有自己擅長(zhǎng)的地方，尤其是那些垂直的行業(yè)模型，在行業(yè)數(shù)據(jù)方面肯定是優(yōu)于一般多模態(tài)大模型的，因此被薅羊毛的概率也很大，但是這大都不會(huì)被公開(kāi)。

大模型數(shù)據(jù)集背后的產(chǎn)業(yè)鏈

為了讓GPT-4具有領(lǐng)先的性能，OpenAI的研發(fā)團(tuán)隊(duì)在模型優(yōu)化、數(shù)據(jù)選擇和硬件投入等方面做了大量工作。相信谷歌的Gemini Ultra和百度文心一言等大模型也是如此。對(duì)于大模型來(lái)說(shuō)，預(yù)訓(xùn)練數(shù)據(jù)集是一個(gè)非常關(guān)鍵的元素，很大程度上決定了大模型最終的性能水平。

在這個(gè)大背景下，隨著大模型產(chǎn)業(yè)發(fā)展，訓(xùn)練數(shù)據(jù)也逐漸成為一種產(chǎn)業(yè)。比如國(guó)內(nèi)的云測(cè)數(shù)據(jù)，云測(cè)創(chuàng)立于2011年，是一家以人工智能技術(shù)驅(qū)動(dòng)的企業(yè)服務(wù)平臺(tái)，為全球超過(guò)百萬(wàn)的企業(yè)及開(kāi)發(fā)者提供云測(cè)試服務(wù)、AI訓(xùn)練數(shù)據(jù)服務(wù)、安全服務(wù)。該公司的云測(cè)數(shù)據(jù)入選“北京市人工智能行業(yè)賦能典型案例(2023)”，在垂直大模型訓(xùn)練數(shù)據(jù)服務(wù)方面很有造詣。

再比如，海天瑞聲作為國(guó)內(nèi)領(lǐng)先基礎(chǔ)數(shù)據(jù)服務(wù)商，是國(guó)內(nèi)首家且是目前唯一一家A股上市的人工智能訓(xùn)練數(shù)據(jù)服務(wù)企業(yè)，為阿里巴巴、Meta、騰訊、百度、字節(jié)跳動(dòng)等公司提供數(shù)據(jù)服務(wù)。

北京郵電大學(xué)科學(xué)技術(shù)研究院副院長(zhǎng)曾雪云教授此前在受訪(fǎng)時(shí)表示，“互聯(lián)網(wǎng)上生成的這些數(shù)據(jù)，它是非結(jié)構(gòu)化的數(shù)據(jù)，也是非標(biāo)準(zhǔn)化的數(shù)據(jù)。這樣的數(shù)據(jù)就是一種原始的、比較雜亂的、沒(méi)有規(guī)范的數(shù)據(jù)，它就需要在計(jì)算前進(jìn)行顆粒度上的清洗，所以高質(zhì)量數(shù)據(jù)通常都有從非結(jié)構(gòu)化到結(jié)構(gòu)化這樣的一個(gè)加工過(guò)程。”

“現(xiàn)在從對(duì)數(shù)據(jù)科學(xué)的研究、國(guó)家對(duì)數(shù)據(jù)的治理，到學(xué)術(shù)界對(duì)數(shù)據(jù)的研究、產(chǎn)業(yè)界對(duì)數(shù)據(jù)的利用都是一個(gè)藍(lán)海，都是一個(gè)剛開(kāi)始的狀態(tài)。”曾雪云教授提到。

當(dāng)然不僅國(guó)內(nèi)關(guān)注到這一塊的產(chǎn)業(yè)價(jià)值，作為頭部企業(yè)，OpenAI希望與機(jī)構(gòu)合作建立新的人工智能訓(xùn)練數(shù)據(jù)集。OpenAI為此創(chuàng)立了“數(shù)據(jù)伙伴關(guān)系”（Data Partnerships）計(jì)劃，該計(jì)劃旨在與第三方機(jī)構(gòu)合作，建立用于人工智能模型訓(xùn)練的公共和私有數(shù)據(jù)集。OpenAI 在一篇博文中表示，數(shù)據(jù)合作伙伴關(guān)系旨在“讓更多組織能夠幫助引導(dǎo)人工智能的未來(lái)”，并“從更有用的模型中獲益”。

結(jié)語(yǔ)

人工智能大模型其實(shí)是大數(shù)據(jù)時(shí)代的典型產(chǎn)物，那么也就無(wú)法脫離對(duì)大數(shù)據(jù)的依賴(lài)。大模型的火爆讓高質(zhì)量訓(xùn)練數(shù)據(jù)成為高價(jià)值、緊俏的資源，而這些數(shù)據(jù)往往掌握在頭部企業(yè)手里，這就是為什么大模型企業(yè)之間互相會(huì)薅羊毛。不過(guò)，相較于互聯(lián)網(wǎng)海量的數(shù)據(jù)，目前科技巨頭的訓(xùn)練數(shù)據(jù)集還只是九牛一毛，如何從海量互聯(lián)網(wǎng)數(shù)據(jù)提取有價(jià)值的訓(xùn)練數(shù)據(jù)集，已經(jīng)逐漸成為一個(gè)產(chǎn)業(yè)鏈。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6174

瀏覽量
105666
字節(jié)跳動(dòng)

字節(jié)跳動(dòng)

+關(guān)注

關(guān)注
0

文章
321

瀏覽量
8957
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1103

瀏覽量
6597
文心一言

文心一言

+關(guān)注

關(guān)注
0

文章
124

瀏覽量
1303
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2499

瀏覽量
2909

評(píng)論

相關(guān)推薦

一文說(shuō)清楚什么是AI大模型

生成能力強(qiáng)，部分版本支持多模態(tài)輸入（如圖像理解）文心一言百度針對(duì)中文優(yōu)化，適合國(guó)內(nèi)應(yīng)用場(chǎng)景 LLa

發(fā)表于 01-02 09:53 ?322次閱讀

<b class='flag-5'>一</b><b class='flag-5'>文</b>說(shuō)清楚什么是AI大<b class='flag-5'>模型</b>

百度文心一言APP升級(jí)為文小言

百度宣布其文心一言APP正式升級(jí)為文小言，標(biāo)志著百度在智能搜索領(lǐng)域邁出了重要一步。文小

發(fā)表于 09-04 16:06 ?525次閱讀

【附實(shí)操視頻】聆思CSK6大模型開(kāi)發(fā)板接入國(guó)內(nèi)主流大模型（星火大模型、文心一言、豆包、kimi、智譜glm、通義千問(wèn)）

接入文心一言、通義千問(wèn)、豆包、智譜glm、kimi等國(guó)內(nèi)的大模型，但由于各家接口和數(shù)據(jù)格式不一樣，調(diào)試驗(yàn)證會(huì)浪費(fèi)很多時(shí)間。因此本篇以聆思CS

發(fā)表于 08-22 10:12

智能硬件接入主流大模型做語(yǔ)音交互（附文心一言、豆包、kimi、智譜glm、通義千問(wèn)示例）

接入文心一言、通義千問(wèn)、豆包、智譜glm、kimi等國(guó)內(nèi)的大模型，這個(gè)是必須可以的。但由于各家接口和數(shù)據(jù)格式不一樣，有些朋友直接參考chat

發(fā)表于 08-21 19:13

百度文心大模型4.0 Turbo，正式發(fā)布用戶(hù)規(guī)模已達(dá)3億

的最新數(shù)據(jù)，并正式發(fā)布文心大模型4.0 Turbo、飛槳框架3.0等最新技術(shù)，披露飛槳文心生態(tài)最新成果。 ?01?

發(fā)表于 06-29 10:06 ?887次閱讀

李彥宏高度評(píng)價(jià)百度文心一言模型及AI技術(shù)，強(qiáng)調(diào)商業(yè)化將持續(xù)推進(jìn)

據(jù)了解，目前已有近10萬(wàn)家企業(yè)使用了文心一言的能力，其中10%的大搜流量由該模型產(chǎn)生，每日有250萬(wàn)用戶(hù)受益于文庫(kù)的AI功能。未來(lái)，百度計(jì)劃進(jìn)一

發(fā)表于 05-11 10:44 ?546次閱讀

微軟自研AI大模型即將問(wèn)世

微軟正悄然醞釀一項(xiàng)重大技術(shù)突破，據(jù)內(nèi)部消息人士透露，公司正全力訓(xùn)練一款名為“MAI-1”的自研人工智能大模型。這款

發(fā)表于 05-07 14:46 ?502次閱讀

新火種AI|李彥宏發(fā)聲：文心一言4.0在國(guó)內(nèi)可以取代ChatGPT！事實(shí)真的如此嗎？

文心一言 VS ChatGPT，誰(shuí)更勝一籌？

發(fā)表于 04-19 10:14 ?810次閱讀

百度文心一言用戶(hù)破2億，AI原生應(yīng)用開(kāi)發(fā)數(shù)量達(dá)19萬(wàn)

此外，李彥宏還提到，百度在去年 8 月宣布開(kāi)放文心一言后，不僅在C端借助大模型改造用戶(hù)產(chǎn)品，將AI功能融入旗下多款產(chǎn)品；同時(shí)在B端，通過(guò)云業(yè)務(wù)推出企業(yè)級(jí)

發(fā)表于 04-16 15:05 ?641次閱讀

百度文心一言新增定制聲音功能，數(shù)秒即可生成個(gè)人語(yǔ)音

通過(guò)IT之家所述，用戶(hù)只需啟動(dòng)文心一言App并點(diǎn)擊底部“+”按鈕，進(jìn)入創(chuàng)建智能體界面；在聲音設(shè)置處找到專(zhuān)為個(gè)人量身打造的“創(chuàng)建我的聲音”功能。

發(fā)表于 04-07 16:20 ?908次閱讀

極越01 OTA V1.4.0升級(jí)，融合文心一言等技術(shù)，實(shí)現(xiàn)人車(chē)家深度融合

夏一平指出，目前極越 01已成功整合百度地圖、文心一言、Apollo以及小度等多項(xiàng)技術(shù)。此外，百度 Apollo 自動(dòng)駕駛視覺(jué)大模型 VTA

發(fā)表于 03-26 11:20 ?714次閱讀

文心一言將在2024年貢獻(xiàn)數(shù)十億元的增量收入

百度文心一言在2024年有望為百度帶來(lái)數(shù)十億元人民幣的增量收入，這一預(yù)測(cè)由百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏親自公布。這一增長(zhǎng)預(yù)期主要基于

發(fā)表于 03-04 11:32 ?1255次閱讀

谷歌推出新一代大模型Gemini 1.5

近日，谷歌在無(wú)預(yù)警的情況下發(fā)布了其下一代大模型——Gemini 1.5，這款模型在性能上實(shí)現(xiàn)了顯著增強(qiáng)，并在長(zhǎng)上下文理解方面取得了令人矚目的

發(fā)表于 02-20 13:55 ?916次閱讀

百度起訴“文心一言”公司涉嫌商標(biāo)侵權(quán)，不正當(dāng)競(jìng)爭(zhēng)糾紛即將開(kāi)庭

公告中指責(zé)對(duì)方涉嫌商標(biāo)侵權(quán)，引發(fā)了一場(chǎng)涉及人工智能領(lǐng)域的法律大戰(zhàn)。據(jù)了解，百度公司推出的“文心一言”是一款知識(shí)增強(qiáng)大語(yǔ)言

發(fā)表于 02-06 11:44 ?1691次閱讀

文心一言APP上線(xiàn)數(shù)字分身功能

文心一言APP近日上線(xiàn)了一項(xiàng)令人興奮的新功能——數(shù)字分身。這一功能允許用戶(hù)輕松創(chuàng)建自己的個(gè)性化虛擬形象，為用戶(hù)帶來(lái)全新的互動(dòng)體驗(yàn)。

發(fā)表于 02-04 10:32 ?1230次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

谷歌Gemini自曝用文心一言訓(xùn)練，字節(jié)被OpenAI封號(hào)，大模型互薅羊毛是常態(tài)？

評(píng)論

一文說(shuō)清楚什么是AI大模型

百度文心一言APP升級(jí)為文小言

【附實(shí)操視頻】聆思CSK6大模型開(kāi)發(fā)板接入國(guó)內(nèi)主流大模型（星火大模型、文心一言、豆包、kimi、智譜glm、通義千問(wèn)）

智能硬件接入主流大模型做語(yǔ)音交互（附文心一言、豆包、kimi、智譜glm、通義千問(wèn)示例）

百度文心大模型4.0 Turbo，正式發(fā)布用戶(hù)規(guī)模已達(dá)3億

李彥宏高度評(píng)價(jià)百度文心一言模型及AI技術(shù)，強(qiáng)調(diào)商業(yè)化將持續(xù)推進(jìn)

微軟自研AI大模型即將問(wèn)世

新火種AI|李彥宏發(fā)聲：文心一言4.0在國(guó)內(nèi)可以取代ChatGPT！事實(shí)真的如此嗎？

百度文心一言用戶(hù)破2億，AI原生應(yīng)用開(kāi)發(fā)數(shù)量達(dá)19萬(wàn)

百度文心一言新增定制聲音功能，數(shù)秒即可生成個(gè)人語(yǔ)音

極越01 OTA V1.4.0升級(jí)，融合文心一言等技術(shù)，實(shí)現(xiàn)人車(chē)家深度融合

文心一言將在2024年貢獻(xiàn)數(shù)十億元的增量收入

谷歌推出新一代大模型Gemini 1.5

百度起訴“文心一言”公司涉嫌商標(biāo)侵權(quán)，不正當(dāng)競(jìng)爭(zhēng)糾紛即將開(kāi)庭

文心一言APP上線(xiàn)數(shù)字分身功能