在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型的效率騰飛,彩云科技做對了什么?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2024-11-16 13:59 ? 次閱讀

wKgZomc4NLqAQw_DAAoSb-MlHI0658.jpg

對于絕大多數AI創業者來說,AGI的技術信仰是月亮,商業化能賺到錢的應用則是六便士,而一家中國公司,卻將月亮和六便士都握在了手中。

彩云科技的CEO袁行遠,一直將AGI作為自己的終生目標。大模型被認為是通往AGI之路,所以彩云科技決心為這條AGI之路掃清阻礙,通過優化Transformer架構,助力大模型效率提升,為此開發出DCFormer全新通用模型架構。

敢于啃最難啃的骨頭,讓彩云科技與許多只敢停留在應用層的AI公司,形成了鮮明對比。

這并不意味著彩云科技全是一群離群索居、不食人間煙火的極客。他們也打造了AI時代的爆款應用,如彩云小夢、彩云小譯和彩云天氣。其中2021 年上線的彩云小夢1.0,是全球領先的 AIRPG 平臺,同時發布了海外版Dreamily,目前已經吸引了60%中國大陸用戶、30%歐美用戶、10%東南亞用戶,在平臺上進行AI寫作。

可以看到,彩云科技的AI商業化表現也很出色,是國內為數不多能夠實現盈利的AI公司。

只追求月亮會餓死,只追求商業化會活得庸俗。在AI的理想與現實之間,彩云科技究竟是如何找到平衡點的?

wKgZomc4NLuAJnlXAAJpHz4jMzM894.jpg

AGI通用人工智能,被認為是人工智能領域的圣杯。而大模型,是目前通往AGI的必由之路。2023年大模型技術火爆全球,但技術進化才剛剛開始。比如大模型的核心技術突破——Transformer架構,就有一系列問題有待解決。

想摘下AGI的圣杯,AI行業必須先跨越Transformer架構的瓶頸:

1.效率瓶頸。大模型在并行計算過程中需要頻繁重寫檢查點(checkpoint),延長了訓練周期。增強Transformer架構的計算效率,可以大幅縮減計算時間,提升大模型的開發效率。

2.能源瓶頸。大模型參數規模邁向超萬億,會消耗巨額電力資源,有新聞報道,一個十萬億或五十萬億參數的大模型就能用光一座小城市的所有電量。為了減少耗電量和能源負擔,提升大模型的計算效率,縮短計算時間,已經刻不容緩。

3.普及瓶頸。一味追求scale-up的大模型技術,對算力、存儲、傳輸、運維等各個資源的需求也直線上升,會帶來高昂的落地成本和部署難度。AI的廣泛應用和普及,才能推動各行各業智能化,所以大模型必須從追求“變大”到“變聰明”,底層Transformer架構的優化勢在必行。

正如袁行遠所說,“沒有(計算)效率的提升,AI就是鏡花水月”。

為了有一天人類能真正將AGI這枚月亮抱在懷里,彩云科技從一開始就瞄準了底層架構,主動擔起了優化Transformer架構的技術挑戰,也成為在這一領域率先取得顯著成果的中國公司。

wKgZomc4NL2AR2pkAAIqtVC3Yx4497.jpg

2024年5 月,彩云科技全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》發布在arXiv平臺,并順利被AI頂會ICML2024收錄,論文評分高達7分,遠高于今年平均分。同時受邀在今年7月登臺發表演講,成為9473篇論文中唯二斬獲Oral論文的中國企業,另一家是華為。

wKgaomc4NL2AJYK0AABYJsEvS4E730.jpg

大家想必都很好奇,論文中發布的DCFormer架構到底有什么過人之處?

我們可以把大模型訓練,看作是一個大型復雜任務,需要很多個打工人(注意力頭),背著自己的參數集和數據在干活。

而Transformer的核心組件——多頭注意力模塊(MHA),將查找選擇回路和變換回路給綁定在一塊兒了,交給同一個注意力頭。試想一下,當一個打工人既得關注查找,又得關注變換,專注性就會受到損害,而且完成的工作大概率也跟別人有重復,這就降低了整個組織的效率。

那更合理的辦法是什么呢?當然就是多雇些人、專事專辦唄。讓不同的“注意力頭”關注不同方面,一群專業的人靈活協作,干的活效率更高,質量也更好。

所以DCFormer框架,就是給注意力頭“減負”,來提高大模型的效率。

彩云科技提出的可動態組合的多頭注意力(DCMHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動態組合。這就為DCFormer框架帶來了幾個變化:

1.靈活性提高。由于DCMHA允許根據輸入動態組合不同的查找和變換回路,讓應用了DCFormer的模型,能夠更靈活地處理復雜任務。

2.表達能力提高。MHA的固定綁定導致模型無法充分捕捉輸入數據的多個不同特性,表達能力也受到影響。DCMHA從根本上提升了模型的表達能力。

wKgZomc4NL6AE02pAABWwChQ9P0398.jpg

3.效率提高。查找和變換被固定綁定,會導致不同的注意力頭學習到相似的信息,造成功能上的重復冗余,不僅降低了計算效率,還會浪費計算資源。通過可動態組合的多頭注意力(DCMHA)解綁之后,DCFormer框架實現了對Transformer架構1.7—2倍的提升,也可以讓模型成本進一步下降。

總結一下,DCFormer框架從底層改變了注意力頭的組合方式。如果說打破Transformer計算瓶頸,加速AGI進程,是彩云科技的逐月之旅。那么DCFormer框架,就是彩云科技為夢想所打造的一座天梯,讓大模型在上面實現了效率、性能、成本優化等多方面的飛躍。

沿著DCFormer的天梯望過去,一個大模型為核心的AI時代,好像離我們真的不遠了。

wKgaomc4NL6AdCJKAAKEJwa9VwM460.jpg

避免這一輪大模型的AI浪潮走向泡沫,必須讓技術致用,形成商業閉環。賺到六便士,是AI獲得長期生命力的前提。

從技術到商業的轉化,彩云科技同樣敢為人先。目前,彩云科技的AI應用已經獲得了在DCFormer架構的一系列助益,有望實現商業騰飛。

比如既有能力的大幅升級。作為國內首個分鐘級天氣預報,街道級定位精度的天氣預報服務,彩云天氣基于DCFormer帶來的模型效率提升,有望在未來將分鐘級的高準確率預測時長從2小時擴展到3—12小時,能力進一步提升。

wKgZomc4NL-ALftPAAStOo-w0cU614.jpg

再比如全新能力的拓展。彩云科技旗下AI RPG平臺彩云小夢,采用了全新的DCFormer架構,V4、V5版本有望擴展到2000-5000字的創作,再通過故事工程優化,目標是一年內可以輕松創作出達到專業作家水平的5萬字長度中篇故事,同時小夢角色扮演的故事體驗,也能達到專業編劇的水平。憑借優異的性能,彩云小夢在小說續寫、AI陪伴等領域,已經實現了用戶使用時長斷崖式的領先。

wKgaomc4NL-AEqB3AAI-YHlj8-w864.jpg

不難看到,DCFormer架構為彩云科技的AI產品化、AI商業化,奠定了騰飛的基礎條件。也證明,唯有基于底層技術創新,AI產品才能避免同質化競爭,打造出極具說服力和差異化的產品體驗,從而建立碾壓式的市場優勢。

wKgZomc4NMGAK_MXAAItOKqxkj0533.jpg

大模型爆火以來,國外做底層創新、國內做應用改良,似乎成了慣例。

中國AI企業不敢向底層創新下大力氣,更希望低頭撿起六便士,并不是不愿意抬頭追逐月亮,而是技術代際的現實差距、算力資源受限的實際情況、商業回報的約束和壓力,都是切實存在的。

而提到那些敢于逐月的AI公司,我們第一時間想到的是國內科技巨頭,很少人知道彩云科技是國內最早做LLM(大語言模型)的公司之一,而且敢于追逐AGI的夢想,向底層技術發起沖鋒。

既能仰頭逐月,也能低頭搞好商業化,彩云科技可以作為一個國內AI公司找到技術和商業平衡點的成功樣本。

彩云科技區別于主流AI公司的獨特之處,在于其是個少見的“三有少年”:

有信仰。作為一個體量較小的科技公司,彩云科技利用效率更高的模型架構,在與世界頂級人工智能企業的對抗中取得優勢。如果沒有AGI的技術信仰,一個小公司是想不到、不敢做優化Transformer架構這件事的。

有技術產品化的能力。Transformer架構由谷歌率先提出,卻被OpenAI摘了桃子,ChatGPT成為這一輪LLM里程碑,這得益于chatbot聊天機器人功能的產品化程度更高,更貼近大眾。彩云科技的成功也在于此,并沒有單純地只發paper,而是盡快將DCFormer與產品集成,讓技術盡快轉化為產品落地。這種技術產品化的能力,可以讓底層創新快速投向市場,形成良性循環。

有長坡厚雪的環境。創新,需要長期耐心地投入;產品化,需要深入行業和用戶之中的經驗和感覺。這就是巴菲特所說的“長坡厚雪”,要有足夠強的盈利和長期增長的賽道。這是很多AI初創企業所缺乏,但彩云科技恰好具備的。十年間,彩云科技打造的數款足夠成熟和商業化的AI產品,為技術創新營造了長坡厚雪的良好環境。

“三有少年”彩云科技,找到了理想與現實之間的平衡點,正沿著DCFormer架構的天梯,朝著AGI的月亮飛翔。這條彩云逐月之路,也讓我們看到了AI產品化、商業化的清晰增長路徑。

wKgZomc4NMKAOcZmAAHtSFhDzH8675.jpg

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    30887

    瀏覽量

    269069
  • 大模型
    +關注

    關注

    2

    文章

    2448

    瀏覽量

    2702
收藏 人收藏

    評論

    相關推薦

    大裁員后轉攻物聯網,Intel做對了

    日前,Intel宣布裁員12000,并將公司的發展中心放在物聯網領域,Intel的這一步走對了嗎?
    發表于 04-22 11:08 ?910次閱讀

    G473使用TIM1非對稱模式做移相,用TIM8Combined PWM模式做對角的移相與門輸出,為什么時序不對?

    G473使用TIM1非對稱模式做移相,用TIM8Combined PWM模式做對角的移相與門輸出,為啥占空比對了時序不對?
    發表于 03-14 07:49

    一種基于模型效率估計算法

    。通常異步電機的故障是由于長時間運行損耗增加、效率降低,所以電機檢測比較重要的一項是檢測效率。一般情況會有專用測試儀器來檢測電機效率,但是都需要拆下電機,安裝到專用儀器上進行測試。本文提出了一種基于
    發表于 09-01 08:09

    級聯H橋多電平并網逆變器的模型預測控制研究_楊騰飛

    級聯H橋多電平并網逆變器的模型預測控制研究_楊騰飛
    發表于 01-08 10:57 ?8次下載

    基于CRV_LMS算法的語音增強技術的研究_伍彩云

    基于CRV_LMS算法的語音增強技術的研究_伍彩云
    發表于 03-19 11:45 ?0次下載

    基于雙線性濾波器的自適應有源消聲算法的研究_伍彩云

    基于雙線性濾波器的自適應有源消聲算法的研究_伍彩云
    發表于 03-16 09:25 ?1次下載

    聯想數據中心業務做對了什么?

    聯想數據中心業務做對了什么? 聯想數據中心在近幾個季度有了很強勁的增長,在財報會上,楊元慶夸贊數據中心業務給集團業績提供強力引擎,那么,聯想數據中心業務做對了什么? 聯想數據中心集團副總裁,OEM
    發表于 10-01 09:41 ?786次閱讀

    告別喬布斯 庫克做對了什么?

    上任第十年,庫克功與過2020-09-16 13:43:32 創事記 微博 作者: 連線Insight 我有話說(79人參與) 來源:連線Insight(ID:lxinsight) 文/劉璐明 2011年8月11日,在家中休養的喬布斯給蒂姆庫克打了一通電話,希望他到自己家中去,當時庫克還在擔任蘋果COO,而這通電話不僅預告了一個時代的結束,也改變了庫克的人生軌跡。 庫克回憶起那一天,在電話中問道,應該什么時間去?,喬布斯回答現在。 在那場漫長的談話中,喬布斯突然宣布了一個決定,讓庫克擔任
    的頭像 發表于 09-17 18:08 ?2640次閱讀

    為何中移動5G時代重倉和彩云,投億級資源劍指百億產業?

    就在同一日舉行的中國移動產品創新開放合作論壇上,和彩云生態白皮書也是被隆重推薦的重磅內容,該白皮書的和彩云生態計劃宣稱:中國移動將在 2021 年投入 10 億級資源,引入 100+合作伙伴搭建云端數字消費新場景創造“百億生態”。
    的頭像 發表于 12-14 10:24 ?1888次閱讀

    數字電源管理做對了-電力電子技術2009年8月

    數字電源管理做對了-電力電子技術2009年8月
    發表于 04-16 19:01 ?12次下載
    數字電源管理<b class='flag-5'>做對了</b>-電力電子技術2009年8月

    RT-Thread全球技術大會:RISC-V自身做對了什么?

    RT-Thread全球技術大會:RISC-V自身做對了什么?清晰的定位,設計優美簡潔,支持了從教學、研究到工業界的無縫切換。 ? ? ? ? ? ? ? 審核編輯:彭靜
    的頭像 發表于 05-27 10:08 ?1047次閱讀
    RT-Thread全球技術大會:RISC-V自身<b class='flag-5'>做對了</b>什么?

    RT-Thread全球技術大會:RISC-V自身做對了什么

      RISC-V自身做對了什么:1、主要做到清晰的定位 2、支持從教學、研究到工業界的無縫切換 3、成立RISC-V基金會
    的頭像 發表于 05-27 10:12 ?871次閱讀
    RT-Thread全球技術大會:RISC-V自身<b class='flag-5'>做對了</b>什么

    連拓精密氣密性測試儀操作步驟,你做對了嗎?

    人們對防水性能的要求提高很多,比如智能穿戴,手機行業,戶外照明等都需要防水功能。所以廠家在生產過程中,后續驗收過程都會進行對其產品的氣密性防水性能測試。那對于正確的氣密性測試儀正確操作步驟,你真的做對了嗎?如何延長氣密性測試儀的壽命呢?下面讓連拓精密為您解答吧!
    的頭像 發表于 10-29 16:06 ?999次閱讀
    連拓精密氣密性測試儀操作步驟,你<b class='flag-5'>做對了</b>嗎?

    OpenAI到底做對了什么?OpenAI發展的5大技術路線

    為什么AGI這樣史詩級的革命,背后的核心推手竟然是OpenAI這樣的創業公司?OpenAI到底做對了什么?
    發表于 07-24 10:50 ?1959次閱讀
    OpenAI到底<b class='flag-5'>做對了</b>什么?OpenAI發展的5大技術路線

    亞太半導體騰飛.zip

    亞太半導體騰飛
    發表于 01-13 09:06 ?1次下載
    主站蜘蛛池模板: 三级亚洲| 国产亚洲高清在线精品不卡| 亚洲免费不卡| 欧美激情二区三区| 怡红院亚洲怡红院首页| 天堂成人网| 年轻的护士3在线观看| 国产人人艹| 天天射天天搞| 成人综合在线视频| 人人干视频| 激情综合色五月丁香六月亚洲 | 国产特黄一级一片免费| 免费黄色欧美| 五月桃花网婷婷亚洲综合| 毛片a区| 456主播喷水在线观看| 九九热最新| 天天躁狠狠躁夜夜躁2021| 亚洲www| 九色 在线| 天天狠天天干| 老师喂我吃她的奶水脱她胸罩| 色丁香久久| 天天射天天干天天色| 久久99热不卡精品免费观看| 久久综合九色综合网站| 天天添天天射| 激情五月亚洲| 欧美亚洲天堂网| 亚州怡红院| h视频免费看| 四虎网址| 9999毛片免费看| 亚洲人成影院在线高清| 一级特黄aa大片免费播放视频| 国产一二三区在线| 欧美xxxx性高清| 色婷婷综合在线视频最新| sese久久| 国产操视频|