作者:京東零售 王家興
一、個人簡介
我是21屆校招生,博士畢業(yè)于中國科學(xué)院-自動化研究所。2021入職博士管培生,現(xiàn)任京東零售-技術(shù)研發(fā)與數(shù)據(jù)中心-智能平臺部-智能算法部-商品圖譜研發(fā)組算法應(yīng)用工程師。當(dāng)前我的工作焦點是低資源情況下大模型的訓(xùn)練與規(guī)模化應(yīng)用。近期發(fā)表頂級國際會議ICLR、AAAI和EMNLP各一篇,提交專利8項。
從學(xué)生到職場技術(shù)人,在這場充滿挑戰(zhàn)和機遇的修煉中,我走過很多彎路,也有一些粗淺的感悟。本文中給大家分享的觀點和解釋其實很多是拾人牙慧的。進入公司以后接受到很多的培訓(xùn),對技術(shù)人在公司里的發(fā)展做了很好的總結(jié)。聽完以后頗有感觸,發(fā)現(xiàn)自己實踐中犯過的錯誤都被老師們指出來了,有很多困惑也得到了解答。下文的分享與諸君共勉。
二、行穩(wěn): 做好當(dāng)下,結(jié)果第一
讀書和加入京東以來的這十幾年,我感觸最深的一個點就是要做好當(dāng)下。我個人是一個思維比較跳脫,想法算是比較多的人。總是喜歡瞎折騰,喜歡想東想西。有時候有點 “這山望見那山高” 的意思。
我本科的專業(yè)是偏電力的控制工程,做過那個電動汽車的無線充電。但是后來美國交換的時候看到了別人在做足式機器人控制,這個東西對于當(dāng)時的我來說簡直是太酷了,再加上當(dāng)時Boston Dynamics的人形機器人爆火。我就趕緊選上了機器人學(xué),以及后續(xù)的非線性控制的課程。 但是這個控制課到后面就是比較抽象難于理解的非線性微分方程和微分幾何了,比較艱深了。這時候大概就是15、16年了,AI開始火起來了,我又一想,哎,搞機器人大腦好像比搞身體更有想象力啊,然后就開始機器學(xué)習(xí)。后來讀研究生,讀博士我其實仍然還延續(xù)著類似的做法,一開始做應(yīng)用、做推薦。然后又覺得貝葉斯方法通用,常青樹,開始研究貝葉斯方法。然后又是一些moment matching 方法, 有g(shù)lobal optima,有全局解,很棒啊。這樣看起來是涉獵廣泛但實際上卻是淺嘗輒止。本科時期或許還可以混得過去,到了研究生期間問題就暴露無遺了。因為現(xiàn)在的要求不是比誰知識更廣博,不是通過組合一些已有的東西去組成一個似是而非的東西,而是真正地要深入地去鉆研,去解決一個問題,要用結(jié)果來說話。就是因為這樣一直處在選題、權(quán)衡、調(diào)整的循環(huán)中,我文章就出的很慢啊,讀博的整個過程前期放飛自我,后期真的是壓力山大。這是我親身實踐過的彎路,也是我讀書階段給我最大的教訓(xùn):確定好當(dāng)下要做的事情,明確一個目標(biāo),就要絕不動搖地把重點放在努力執(zhí)行上,用最終的結(jié)果去說話。
很巧的是,來到公司以后,聽了公司技術(shù)專家的培訓(xùn)課程,老師也提到了這樣的一句話: “這個世界上根本沒有正確的選擇,我們只不過是要努力奮斗使當(dāng)初的選擇變得正確。” 我個人還是很被觸動的。雖然也有說法說 “選擇比努力更重要”的,但是對我這樣現(xiàn)階段技術(shù)人來說,多數(shù)情況都是在當(dāng)下有明確的需求任務(wù)、或者目前信息還不足以進行完美預(yù)見的,那這樣的話踏實專心干活就好了。這樣一種立足當(dāng)下,腳踏實地的態(tài)度可讓我減少大量無意義的內(nèi)耗,專注于工作,事事有回應(yīng),件件有著落。解決好業(yè)務(wù)需求,去交付結(jié)果并贏得認(rèn)可,才能成為一個比較靠譜的人。
三、致遠(yuǎn):業(yè)務(wù)為本、技術(shù)驅(qū)動
那作為一個同時也比較有理想的技術(shù)人,我們也不僅僅只做安排好的事情,低頭耕地,也會抬頭看天。我總會聽到“技術(shù)驅(qū)動” 這個詞。看到新聞里各種技術(shù)創(chuàng)新的政策引導(dǎo),比如今年7月浙江省的這個《關(guān)于引導(dǎo)企業(yè)從“產(chǎn)品驅(qū)動”向“技術(shù)驅(qū)動”創(chuàng)新模式轉(zhuǎn)型,強化企業(yè)核心技術(shù)創(chuàng)新能力的建議》;聽到劉總提到技術(shù)驅(qū)動是降低成本,提高效率和體驗的重要手段;看到比如推薦系統(tǒng)這樣的技術(shù)已經(jīng)極大地改變了現(xiàn)代信息傳遞的模式和通路。但是實際工作中,好像很多時候我們經(jīng)常是在接各種各樣的需求,在各個排期之間奔波,似乎離技術(shù)驅(qū)動這樣的“星辰大海”比較遙遠(yuǎn);這個問題其實也困擾了我很久,后來接受了公司的各種培訓(xùn)以及Leader的指導(dǎo)后終于可能開始初窺門徑。
公司解決問題的整體流程是業(yè)務(wù)-產(chǎn)品-研發(fā),即業(yè)務(wù)運營本身的需求提到產(chǎn)品,產(chǎn)品與研發(fā)設(shè)計解決方案,然后以產(chǎn)品的形式返回給業(yè)務(wù)使用。初看下來研發(fā)確實是承接需求的一方,但是如果作為研發(fā)我們在完成業(yè)務(wù)需求的時候,嘗試去深入理解業(yè)務(wù)邏輯,思考當(dāng)前業(yè)務(wù)需求的來源是什么,后面還可能會出現(xiàn)什么問題,從技術(shù)的角度看是否有散點的需求可以合并解決,從后面走到前面,想到前面,就可能可以實現(xiàn)業(yè)務(wù)需求與技術(shù)探究的有機結(jié)合。就會給我們技術(shù)人以更大施展和騰挪的空間。
去年開始,我開始接觸一個重點項目。 在當(dāng)時建設(shè)系統(tǒng)的時候,為保證輸出的質(zhì)量,會對重保的部分?jǐn)?shù)據(jù)結(jié)果進行人工審核。這一時期其實我們的主要需求是優(yōu)化準(zhǔn)召,但是有人工審核這肯定是就是未來可以優(yōu)化的點嘛,結(jié)合當(dāng)時大語言模型發(fā)展如火如荼發(fā)展的態(tài)勢,我們嘗試了基于LLM訓(xùn)練判別器來進行自動預(yù)審核過濾來降低人工審核的成本。這個其實一定程度上說我們是走在了業(yè)務(wù)需求的前面,因為效率本身還不是當(dāng)下業(yè)務(wù)亟待解決的問題。但是業(yè)務(wù)方也還是非常樂于見到我們做這樣子的嘗試,給了我們很多的空間和支持。
模型判別可以獲得令人滿意的效果,然而,這仍不足以大規(guī)模應(yīng)用。由于采用了大語言模型作為基礎(chǔ),模型推理耗時嚴(yán)重,使用A-100推理1000W條數(shù)據(jù)約需接近50h。為此,我們又主動對模型進行了蒸餾壓縮,將其壓縮六倍+,而精度幾乎不下降。 成果也得以應(yīng)用到了很多個比較重要的業(yè)務(wù)場景。雖然這只是一個比較小的case哈,但是對我們來說它是我針對業(yè)務(wù)運營進行技術(shù)驅(qū)動的一次重要嘗試,當(dāng)然這還是一個比較初級的實踐優(yōu)化了系統(tǒng)的一個小環(huán)節(jié)。一定程度上展現(xiàn)了“想在業(yè)務(wù)前面”的價值。所以說,主動、深入理解業(yè)務(wù)邏輯,預(yù)見業(yè)務(wù)發(fā)展的潛在需求,可以為后續(xù)技術(shù)手段的探究和運用留出比較大的空間,方便讓技術(shù)的力量滲透到業(yè)務(wù)的每一個角落。
四、致遠(yuǎn):技術(shù)突破,行業(yè)影響
以上是從技術(shù)驅(qū)動業(yè)務(wù)的角度的一個小小的感悟,對于我們個人技術(shù)能力的提升和突破來講,我們多少都有一些技術(shù)使命感,就希望我們做出來一個技術(shù)點,在行業(yè)上是特別領(lǐng)先的。那么如何去在自己的領(lǐng)域上進行一些創(chuàng)新突破,提升自己,以及公司的技術(shù)影響。這個是一個很系統(tǒng)性,很復(fù)雜的工程,需要廣博的基礎(chǔ)知識、很好的提煉問題的能力、獨到的解決思路、持之以恒的努力等等。在這一點上我也在摸索和向大家學(xué)習(xí)中,僅分享持續(xù)學(xué)習(xí)和技術(shù)問題提煉兩個小點來拋轉(zhuǎn)引玉一下吧。
持續(xù)學(xué)習(xí): 作為技術(shù)人永遠(yuǎn)不能忽視技術(shù)能力的提升。特別是比如像我們所在的AI這個快速變化的技術(shù)領(lǐng)域,持續(xù)學(xué)習(xí)非常必要的,專業(yè)力永遠(yuǎn)是立身之本。我們要密切關(guān)注行業(yè)動向,了解并學(xué)習(xí)前沿科技,提升對技術(shù)的敏銳度,勇于嘗試和布局;積極參與學(xué)術(shù)活動和技術(shù)論壇,保持同行的交流,避免陷入閉門造車的困境,長期地去修煉好自己的內(nèi)功。
深入思考: 在日常工作中常有的一種感覺是支持業(yè)務(wù)的過程中找不到有價值的技術(shù)點去深究。 那這個時候感覺就還是需要對手上的業(yè)務(wù)進行持續(xù)、深入的思考了。京東的平臺很大,業(yè)務(wù)場景很復(fù)雜,其實抽象出很有意義的探究問題的概率是蠻大的。 就比如之前遇到的一個業(yè)務(wù)問題,一個看似簡單的二分類問題,其實也蘊含著很多很有意義的技術(shù)點,比如他的正、負(fù)樣本天然地就嚴(yán)重不均衡,很難直接訓(xùn)練模型用于正例的抽取,這就是非常經(jīng)典的label imbalance問題。 我們那個問題中判別是成對進行的,要兩兩判別兩個SKU中間是不是存在某種聯(lián)系,可以將prompt和商品標(biāo)題緩存來加速模型的推理,這就蘊含著最近LLM推理很火的Prefix Cache思想。訓(xùn)練好的模型上線使用還有模型輕量化等等一系列后續(xù)的任務(wù)。這都是我們進行突破的機會。經(jīng)過仔細(xì)的分析、解構(gòu)和抽象,很多業(yè)務(wù)問題是包含有很深刻的、值得討論的技術(shù)問題的。用這樣的實際問題切入進行深究,很多時候會比在研究機構(gòu)那種follow paper型的搞法效率更高、理解更到位。京東給我們提供了足夠大的舞臺,我們接下來要看怎么把這個表演去完成。
我在做大模型應(yīng)用的過程中就被模型訓(xùn)練速度慢困擾了很久。因為我們有非常多的場景有訓(xùn)練的需求,待訓(xùn)練模型參數(shù)量很大,訓(xùn)練數(shù)據(jù)很多,我們還需要做大量的實驗來獲得最優(yōu)的策略設(shè)置。在計算資源緊張的情況下還真的是很頭疼。在模型固定的情況下,業(yè)務(wù)實踐中通常會隨機采樣部分?jǐn)?shù)據(jù)訓(xùn)練來緩解這個問題。但是更深入地思考后,就會出現(xiàn)新的疑問:這些方式是選取樣本的合理策略嗎?能保證原有模型效果的保留嗎?還有沒有更好的方式?基于這樣的一個問題和這樣的一個思考,結(jié)合大量相關(guān)工作的啟發(fā),我們設(shè)計了一種新的動態(tài)數(shù)據(jù)選擇的方法。僅保留信息量最大的數(shù)據(jù)子集進行訓(xùn)練來減少計算消耗,實現(xiàn)降本提速。隨后也從理論上證明了這樣訓(xùn)練模型大概率最終會收斂到與常規(guī)訓(xùn)練相同的損失,確保了其可行性。這個工作也被頂級會議ICLR錄用了。
但是還沒有結(jié)束,我們還可以更進一步。大模型效果與訓(xùn)練樣本量的冪率關(guān)系(Power Scaling Law)是海量算力需求的核心因素。如圖所示,橫軸是訓(xùn)練的樣本量,縱軸是驗證損失。增加10^8訓(xùn)練數(shù)據(jù),模型Loss僅下降0.05。這一規(guī)律意味著任何進一步的減少誤差嘗試都可能需要增加一個數(shù)量級的樣本。既然上面我們發(fā)現(xiàn)用少量的樣本訓(xùn)練也可以達(dá)到接近的效果,那么是不是可以通過數(shù)據(jù)選擇來突破冪率形式,實現(xiàn)如下圖所示的指數(shù)形式的新Scaling Law呢?那這樣就是非常有影響力的問題了。
最后,雖然今天聊了很多技術(shù)驅(qū)動和創(chuàng)新,但我們不能進行不切實際的創(chuàng)新,還要站在業(yè)務(wù)的視角思考技術(shù)的價值。技術(shù)驅(qū)動并非單純創(chuàng)新探究, 重點仍是交付價值;技術(shù)影響也非紙上談兵或拿著錘子找釘子,而是發(fā)源與對實際業(yè)務(wù)問題的探究。
五、未來期望
以上就是我的一些小小的心得。 那么隨著大模型和類通用智能技術(shù)的出現(xiàn),我們正處于一場技術(shù)革命的前沿。現(xiàn)在是時候扎根在業(yè)務(wù)應(yīng)用中。在京東這個廣闊的平臺去實現(xiàn)自己的價值,以技術(shù)來驅(qū)動生產(chǎn)環(huán)節(jié)優(yōu)化、流程升級以及產(chǎn)品更新。最終實現(xiàn)集團“以技術(shù)為本,致力于更高效和可持續(xù)的世界”的使命。
審核編輯 黃宇
-
大模型
+關(guān)注
關(guān)注
2文章
2491瀏覽量
2875
發(fā)布評論請先 登錄
相關(guān)推薦
評論