電子發燒友網報道(文/吳子鵬)在蛇年春節期間,國產AI大模型DeepSeek爆火,頻繁登上國內外的熱搜榜單,成為科技界最炙手可熱的新星。根據第三方統計數據,DeepSeek應用上線僅僅20天,日活用戶數量就突破了2000萬大關,其日活增長速度已經超過了當初爆火的ChatGPT。
爆火之后,發布DeepSeek的幻方量化旗下AI公司杭州深度求索人工智能(AI)基礎技術研究有限公司開始招兵買馬,開放了多個崗位的招聘,并且給出了豐厚的薪資報酬。同時,有業內人士指出,DeepSeek或許會接入國產GPU,對國產GPU發展有著積極的帶動作用。
DeepSeek現象級爆火后,公司和產業發展都將提速
今年1月20日,DeepSeek正式發布DeepSeek-R1,并同步開源模型權重。據介紹,DeepSeek-R1遵循MIT License,允許用戶通過蒸餾技術借助R1訓練其他模型。DeepSeek-R1上線API,對用戶開放思維鏈輸出,通過設置`model='deepseek-reasoner'`即可調用。
在性能方面,DeepSeek-R1比肩OpenAI的GPT-4。這款AI大模型在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,DeepSeek-R1性能比肩OpenAI o1正式版。同時,由于這款模型采用的是開源策略,因此被認為具有更好的成長性。
目前DeepSeek-R1和更早之前發布的DeepSeek-V3得到了行業的廣泛認可,包括京東云、百度云、華為云等云產品都已經接入DeepSeek大模型。以京東云來說,京東云已正式上線DeepSeek-R1和DeepSeek-V3模型,支持公有云在線部署、專混私有化實例部署兩種模式。華為云方面,2月1日,華為云宣布經過連日攻堅,雙方聯合首發并上線了基于華為云昇騰云服務的DeepSeek-R1/V3推理服務。同時,英偉達平臺也已經宣布上線DeepSeek,英偉達網站顯示,DeepSeek-R1模型已作為NVIDIA NIM微服務預覽版在英偉達面向開發者的網站上發布。根據介紹內容,英偉達認為,DeepSeek-R1模型是最先進、高效的大型語言模型,在推理、數學和編碼方面表現出色。
多家分析機構認為,DeepSeek-R1和DeepSeek-V3模型的發布將加速AI應用落地。中信證券研報表示,DeepSeek火爆全球,對全球AI產業鏈帶來強大借鑒意義,意味著AI大模型的應用將逐步走向普及,有望開啟全新的Scaling Law,模型重心逐步從預訓練切換到強化學習、推理階段,助力算力需求持續增長;中航證券指出,DeepSeek在基礎模型訓練和推理模型訓練方面均有創新,有效克服了推高模型成本的FP8訓練精度不足、高質量數據匱乏等困難,極大降低了訓練和推理成本;國泰君安認為,DeepSeek-R1的推出體現了開源范式下技術進步的速度,以及在AI訓練、推理上成本大幅度壓縮的可能,AI的廣泛落地有望加速。
DeepSeek爆火之后,深度求索AI公司也進一步快速擴張。公開資料顯示,DeepSeek員工數量大約為150人,屬于規模較小的AI公司。作為對比,OpenAI目前約有1700名員工。為了擴張隊伍,在招聘網站上,深度求索AI公司放出了一系列職位,涵蓋客戶端研發工程師、深度學習研發工程師、全棧開發工程師、自然語言處理算法、深度學習研究員等不同工作內容。
薪酬方面,從正式員工崗位的招聘信息看,DeepSeek對員工薪酬采取“14薪”的模式。在Deepseek掛出的職位中,大部分崗位的起薪在2萬元以上,不少年薪能夠達到百萬元級別。以深度學習研究員崗位為例,薪資水平為50—80k*14薪,工作地點為北京,招聘要求是在校或者應屆的碩士生。這意味著,若按照最高月薪8萬元計算,應屆生入職DeepSeek,年薪就可達到112萬元。除了正式員工,DeepSeek還招聘AGI大模型-數據百曉生實習生、深度學習-AGI實習生等實習崗位,實習工資為每天500元左右。
同時,DeepSeek爆火對美國AI產業造成了巨大的沖擊。此前,DeepSeek的優異表現以及不及OpenAI近1/20的算力成本令英偉達股價曾一夜暴跌17%,市值蒸發近6000億美元,這是美股單日最大跌幅。當天,DeepSeek給美國科技股帶來了重創,除了英偉達外,博通、臺積電、AMD和ASML等公司均出現了不同程度的下跌。
另外,DeepSeek的強大也引起了一些國家的擔憂。比如,美國國會近日提出《2025年美國人工智能能力與中國脫鉤法案》。法案主要內容包括:禁止美國人在中國境內推進人工智能能力,禁止下載或使用DeepSeek,否則將被定性為犯罪,最高可判處20年監禁。隨后,意大利宣布,由于缺乏有關人工智能模型DeepSeek使用個人數據的信息,該機構已經下架了DeepSeek;法國隱私監管機構國家信息與自由委員會(CNIL)表示,該機構將對中國初創公司DeepSeek進行質詢;澳大利亞稱,DeepSeek對政府技術構成了“不可接受的風險”,立即實施禁令是為了“保護澳大利亞的國家安全和國家利益”。
DeepSeek有望接入國產GPU
筆者也在DeepSeek平臺向這款大模型提問:DeepSeek為什么會爆火?
DeepSeek給出了6條總結,分別是:
·高性能與精準度:DeepSeek采用了先進的深度學習算法和大規模數據集進行訓練,使其在多個應用場景中表現出色,如自然語言處理、圖像識別等。其高精準度和快速響應能力贏得了用戶的廣泛認可。
·技術創新:DeepSeek在模型架構和訓練方法上進行了多項創新,例如引入了更高效的神經網絡結構和優化算法,這些技術突破顯著提升了模型的性能和效率。
·強大的硬件支持:DeepSeek利用了NVIDIA的高性能GPU(如A100和H100),這些硬件提供了強大的計算能力,使得模型訓練和推理過程更加高效,進一步提升了用戶體驗。
·廣泛的應用場景:DeepSeek不僅在學術研究中表現出色,還在商業應用中展現了巨大的潛力。無論是智能客服、內容推薦,還是自動駕駛、醫療診斷,DeepSeek都能提供強有力的支持,滿足了多樣化的市場需求。
·開放與合作:DeepSeek團隊積極與學術界和產業界合作,推動了技術的快速迭代和應用落地。同時,部分技術和工具的開放也吸引了大量開發者和研究者的參與,形成了良好的生態系統。
·市場推廣與用戶口碑:DeepSeek通過有效的市場推廣策略和優質的用戶體驗,迅速積累了大量的用戶和粉絲。用戶的口碑傳播進一步加速了其知名度的提升。
業內人士稱,雖然DeepSeek曾一度重創英偉達股價,但是其也是基于英偉達的高性能計算芯片訓練而來,英偉達芯片的領先性依然是毋庸置疑的。只不過,DeepSeek改變了傳統AI大模型Scaling Law的邏輯,在訓練過程中提升強化學習的權重,且更加注重推理。這一改變相較于此前的預訓練權重高,可能會降低英偉達芯片的影響力,這也是美國科技產業恐慌的地方。
不過,無論如何,算力芯片依然是DeepSeek的基礎,這一AI大模型并不是憑空出現的,只是改變了運用算力芯片的側重點。有業內人士爆料稱,在使用英偉達H800芯片訓練DeepSeek時,沒有采用CUDA代碼,而是從CUDA生態的中間態表示入手,用PTX代碼直接編寫,而后轉為目標GPU架構的機器碼,這和傳統英偉達CUDA生態的應用是有一定差異的。
此舉引發了大量的猜測。其中一種猜測是,直接使用PTX代碼編寫就是為了繞開CUDA生態,為接入國產GPU做準備。在相關討論中,也有研發人員表示,直接使用PTX代碼編寫對GPU有很強的針對性,H100上的代碼一旦轉移到H800或者A100上,效果可能就會打折扣,不過這一做法確實能夠更好地發揮國產GPU的性能。PTX代碼被稱為GPU硬件的“母語”,并不是只針對英偉達GPU,這種做法確實容易引起聯想。
目前,國產計算芯片可用于AI計算的產品有摩爾線程的MTT系列,燧原科技的云燧系列,寒武紀的思元系列,天數智芯的Big Island系列,以及華為的昇騰(Ascend)系列等,這些產品都有望在DeepSeek開啟的AI大模型新紀元里廣泛受益。
結語
DeepSeek的爆火是現象級的,顛覆了此前由OpenAI引領的預訓練技術路線,提升了強化學習和推理的作用和權重,并在硬件的使用上獨辟蹊徑,將會引領全球AI產業發展的新潮流。DeepSeek的強大也展示了國內AI創新力量的強大,由于DeepSeek沒有采用傳統CUDA語言編程的做法,更是讓人們對國產AI大模型產業的后續發展充滿了無限想象。
-
DeepSeek
+關注
關注
1文章
680瀏覽量
521
發布評論請先 登錄
相關推薦
科技巨頭瘋狂搶人!年薪126萬起,AI人才崗位暴增三倍

CPU\GPU引領,國產AI PC進階

國產AI芯片破局:國產TCB設備首次完成CoWoS封裝工藝測試

深圳發力機器人AI芯片攻關,萬年芯助推國產化替代

FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......
后摩智能攜手聯想開天打造基于DeepSeek的信創AI PC
無問芯穹實現七家國產芯片DeepSeek適配
deepseek國產芯片加速 DeepSeek的國產AI芯片天團

瀚博完成DeepSeek全版本訓推適配
“兆瀚”算力產品強力支持DeepSeek,共筑國產AI新生態!

芯動力神速適配DeepSeek-R1大模型,AI芯片設計邁入“快車道”!

首發 | 昆侖芯 | 國產AI卡Deepseek訓練推理全版本適配、性能卓越,一鍵部署等您來(附文檔下載方式)

雷軍千萬年薪挖角95后AI天才少女 DeepSeek開源大模型DeepSeek-V2關鍵開發者之一羅福莉
國產GPU在AI大模型領域的應用案例一覽

評論