1月15日,科大訊飛舉行訊飛星火大模型升級發布會。
發布首個基于全國產算力平臺訓練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1,聯合華為首次攻克國產算力訓練深度推理模型難關實現多學段數學能力的國內第一,率先落地教育、醫療等剛需場景。
訊飛星火4.0 Turbo底座再次全面升級,七大核心能力全面提升,行業首發混域知識搜索技術。
發布星火語音同傳大模型,國內首個語音端到端同傳大模型,最快實現5秒以內的同傳時延,達到人類專家譯員的水平。
以下是全程實錄:
發布訊飛星火深度推理模型X1
萬里(產品經理):訊飛星火X1是我國首個基于全國產算力訓練的具備深度思考和推理能力的大模型。前兩天我也體驗了正式版本的效果,先請權哥給大家介紹一下,深度推理模型到底和通用大模型有什么不一樣的地方?
權哥(研究員):深度推理模型更擅長做數學題這樣的復雜任務,而且有全面的思考推理過程。我們直接讓星火X1做2024年高考數學卷第15題,這是一道大題。
萬里:高考題目X1就算過關了,看起來很厲害啊。
權哥:我們讓X1參加了不少“考試”,現在看到的就是X1最近的“數學考試成績單”。
萬里:很優秀的成績單,考試類型也很全面,覆蓋小學、初中、高中、大學,還有奧數。
權哥:我們利用更少的算力,實現了業界一流的效果,多項指標國內第一。在小初高數學上,X1已經做到90多分,競賽類也有80多分,大學的答題和競賽也達到了國內領先。部分任務題目很難,在國產平臺適配跑通后的訓練時間比較短,數據不太多,后面還有很大的提升空間。
萬里:榜單上還有英文任務,也來試試。
想哥(研究員):2024年AIME競賽這道題比較難,里面有多個方程,還涉及到對數運算。
想哥:再找個奧賽題給X1試試,這是我們國內去年高中數學奧賽的題目。
權哥:X1主要有三個典型特點。首先,它能夠化繁為簡,把復雜的問題拆解成多個步驟進行思考推理,剛才在做題的時候,右側對思考過程都有展示。第二,它能夠自我反思和驗證,和我們直覺是一樣的。剛剛在解答奧賽題的時候,由于人類標注數據難度極大,X1模型會根據答案正確與否進行強化訓練,數學這種有明確答案和結果的任務,天然適配X1模型。
權哥:這方面的技術我們早有積累。比如我們提出的基于自我評價迭代的評語模型技術,還有我們在數學答題領域提出的多路徑和反思迭代的強化學習,在教育高考作文評分、數學教師助手中應用了,o1-preview發布后,訊飛星火X1在1個月內就跑通了關鍵的算法。不過將整個系統在國產化平臺上全面實現,在數據構建、框架調優、模型驗證等各個方面都還有很多難題,雖然多花了不少時間和代價,但是很自豪我們都搞定了。
萬里:國產算力確實在單卡、集群、生態上都和國際領先水平有一定距離。在這種情況下,想訓練出能和OpenAI模型掰手腕的深度推理模型是比較困難的,這個過程中有沒有遇到什么困難和問題?
想哥:星火大模型一開始就堅定地走全國產化路線,在這之前已經完成了很多模型適配,但是X1訓練又是一條新的技術路線,這里面訓練和推理有非常強的交互,需要跨任務傳輸數據及模型權重,任務優化總體目標也由追求在線實時響應變為離線高吞吐,這就要克服國產卡間互聯帶寬的短板。在這種復雜訓練模式下,效率的影響因素也很多,后訓練算力也直接飆升了一個數量級,所以我們馬不停蹄和華為啟動了合作攻關,成效很明顯。說是攻關,其實這個過程更像闖關,我們沒有成功案例可以借鑒,只能一點點啃骨頭。
權哥: 最終我們的算法不僅在國產算力上成功適配了,而且端到端訓練效率相比A卡,從剛開始的55%提升到了85%以上。因為訓練框架基礎夯實之后,我們才能做出更好的深度推理模型。
萬里:有請華為昇騰計算業務研發總裁周斌和我們分享。
萬里:訊飛星火迄今仍然是我國全民開放可下載大模型中的唯一一個用國產算力訓練出來的大模型,又是唯一一個在全國產算力上訓練的深度推理模型,在國產算力上總要有人勇闖無人區,還是為我們的團隊自豪的。
星火大模型布局就是“1+N”,1是底座大模型、N是賦能行業應用,這次星火X1也會率先應用落地到實際場景里。
在教育上,去年1024,依托星火大模型的最新進展,聯合中國教育科學研究院發布了基于“問題鏈”的高中數學智能教師助手,面向全國百個試點區域、聯合千名優秀教研員和老師打造上萬個優秀案例。現在星火X1已經部署在上述試點區域,來自北京、上海、合肥等地的教研員和老師均有體驗,大家的評價都很不錯。
老師們都說在解答一些高中數學的創新題目上,X1能一題多解,在教學知識關聯、拓展學生高階思維這些方面表現也很棒。前幾天,在北京試點區域專題研討的時候,北京八中有27年教齡的李雙平老師說,X1推理過程和思路更清晰,如果遇到新題目或者考試題,X1經常會帶來很大幫助。
X1除了能幫助老師教學,對于學生的學習也很有用。科大訊飛AI學習機依托人工智能國家隊,首創了AI 1對1個性化精準學,幫助孩子減負增效,受到了很多家長和孩子的喜愛,用戶凈推薦值持續保持行業第一,著名演員孫儷老師也成為了我們的產品代言人。
這次推出的深度推理模型X1,可以使得訊飛AI學習機對孩子學習的診斷和推薦指導更加精準,更好地對孩子進行因材施教,后續我們將會持續升級。
權哥: 目前我們X1模型策略在醫療領域已取得初步驗證成效,而且醫療也確實是一個非常適合深度推理模型的應用場景。我們基于知識反思和思維鏈技術,結合醫療循證推理技術,構建了醫療輔助推理能力的X1模型,專科輔助診斷和復雜病歷內涵質控的效果都達到了90%。
同時,我們已經聯合華西發布了醫學大模型“華西黌醫”,顯著提升了復雜病歷內涵質控效果;聯合北京安貞醫院發布了心臟診斷大模型,為心血管疾病的輔診推理帶來了技術突破。我們計劃在今年上半年正式發布基于X1的醫療大模型升級版,在更大范圍為醫生提供更專業更高水平的輔助。
萬里:X1已經在這些應用領域上產生真實的價值了。大家在訊飛星火網頁端和APP端,搜索“深度推理模型X1”智能體,就能直接體驗效果了。未來我們對X1還有什么計劃和期待呢?
權哥: 首先,我們目前訓練時間還不長,訓練數據還不充分,隨著飛星二號的算力持續到位,以及行業落地帶來的飛輪效應,會加快X1模型的優化迭代;其次,我們在模型結構、強化學習算法上已經有了不錯的思路和方案,因此我們對X1的效果進一步得到更大提升還是非常有信心的。另外,X1技術對星火底座模型也有很強的反哺作用,所以星火4.0 Turbo效果也提升了很多。
想哥:現在我們基礎已經打牢了,國產算力水平也在不斷提升,會全力保障星火大模型持續進步。
萬里:相信我們的技術會應用到更多場景里面去!
訊飛星火4.0Turbo全新升級
林鴻(產品經理):看到X1對星火底座的助力和提升,相信大家也很關注底座最新的進展。
钖哥(星火軍團CTO):最近朋友圈很多人刷屏,訊飛得到了大模型中標數量和中標金額雙第一的成績,尤其是在能源、金融、汽車、運營商等領域,跟客戶構建了很多的行業大模型,在剛需場景上共同打磨了近百個智能體應用。這次星火4.0 Turbo的升級依然是緊貼用戶的剛需,圍繞著不同行業龍頭企業的落地訴求、C端用戶的真實反饋。大家關心的問題還是挺相似的,比如說“讓大模型支持更長的文本、理解更復雜的圖文、減少幻覺”、“能不能讓大模型對行業的理解能力上有更大的提升”等,這都是我們本次星火4.0 Turbo底座升級的重點方向。
泰哥(研究員):在去年10月24日,我們基于全國產算力訓練的星火4.0 Turbo就已經在各種真實任務的背靠背測試中超過了OpenAI的GPT4-Turbo。三個月之后,本次我們再次升級星火4.0 Turbo。可以看到,相比去年10月24日的版本,新版本在知識問答、語言理解等能力上都得到了持續提升,我們的星火底座已全面對標OpenAI 最新版的GPT-4o。特別要說明的是,在數學能力上,通過X1大規模數據合成以及基于長思維鏈的蒸餾技術,使得數學能力絕對提升了10.5%,這將助力數學教學、金融分析和科研等工作再上一個新的臺階。
林鴻:在底座能力上,長文本也是用戶非常關注的一個能力,尤其是在一些嚴謹的場景下,比如企業知識問答,用戶對幻覺的容忍度幾乎為0,所以我們這次也升級了底座的長文本能力,行業首發句子級溯源。
泰哥:我們研發了基于智能體的全新長文本框架,除了進行超長注意力機制的優化外,還利用大規模書籍數據、網頁數據等進行知識關聯式的數據合成,對模型進行增強式的訓練,使得新版本長文本的知識回復錯誤率相對下降了40%,句子級溯源的整體效果也已經超過GPT-4o。
钖哥:這兩年得益于與很多龍頭企業合作的機會,我們收集、整理了多個行業的海量高價值文本訓練數據,并針對行業應用落地打磨了數十萬的高質量行業場景SFT數據以及不少行業模型。這次星火4.0 Turbo在行業能力上也有明顯的提升,例如,金融領域知識問答絕對提升14%,油氣領域絕對提升了16%。
林鴻:除了對行業能力的需求之外,用戶對圖文識別的需求是非常迫切的,比如科研工作者需要閱讀的學術論文、老師們需要批閱的手寫作業、企業需要審核的蓋章合同等,都需要圖文能力,目前在業界也是巨大的挑戰。
泰哥:這次星火4.0 Turbo特別強化了復雜場景的圖文識別能力,從對比結果中能看出來,星火的圖文識別能力在眾多場景上超過了國內外友商,有些場景顯著超越,我們的圖文識別能力已經達到了國際領先水平。
钖哥:給大家看幾個例子,第一個是一個拍照的表格,這個表格上都沒有線,信息是很難理解的,且拍的有點傾斜,這是一個之前都解決不好的很難的場景。可以看到我們最新的圖文識別大模型已經處理得很好,而友商處理的版面分析就直接錯了。
钖哥:第二個例子是一個手寫文字+公式的圖片,是一個試卷的手寫答案。手寫文字密密麻麻的,也沒有固定的版式。我們新的圖文識別大模型不僅理解了版式,而且把這么復雜的手寫數字、符號和公式都識別對了,也是顯著優于競品。
钖哥:類似的難題還有很多,比如醫療的體檢報告經常有復雜的長表格、法院的文書或學術論文里有很雜亂的版式和公式、企業合同里也會遇到印章手寫合同傾斜少線等等情況,圖文識別大模型在這類疑難雜癥問題提升了很多,效果更好了。
泰哥:很多用戶已經很滿意我們的圖文識別效果,但也有用戶對效率提出更大的期許。為了響應期待,我們還發布掃描文檔解析的極速版本,對文檔的理解速度提升了10倍,大大縮短了處理大量行業文檔、構建私域知識庫的時間。
钖哥:在與各行業用戶探索大模型落地的場景過程中發現,大家無論是做戰略規劃、行業調研,還是制定市場策略,花費了大量時間在查找資訊和整理材料上。得益于圖文、行業、長文本等能力的提升,我們首發混域搜索技術,無論個人知識、企業知識、行業報告、還是互聯網信息,提問一次可以拿到綜合搜索后的結果,這樣信息搜索和整理的效率會大大提升,結合長文本首發的句子級別的溯源,可以讓大家對問答的結果更放心。給大家看個演示。
林鴻:這些能力可以在訊飛星火網頁端和APP端體驗,希望能給大家帶來更多的幫助和啟發,在工作中找到更多場景盡情釋放星火大模型的多維智慧。
此外,深受用戶喜歡幫助大家做PPT制作的訊飛智文、助力新媒體工作者效率提升的訊飛繪文也同步上新,歡迎大家多多使用,多多反饋。
首發星火語音同傳大模型
晨璇(產品經理):和大家分享科大訊飛在機器翻譯方面的最新進展。本次發布的星火語音同傳大模型,是國內首個具有端到端語音同傳能力的模型。科大訊飛在跨語言溝通上,一直期望為用戶提供最先進的技術支持和產品體驗。
亞楠(研究員):訊飛是率先通過全國翻譯專業資格考試的機器翻譯系統,在最近的連續3屆國際口語機器翻譯比賽中獲得了冠軍。本次發布的端到端語音同傳大模型不僅能夠滿足日常對話場景的需求,也在商務交流和行業翻譯上取得了明顯的進步。
晨璇:這次發布的關鍵詞是“端到端的語音同傳”,同聲傳譯在翻譯界也是困難的工作模式。業界覺得怎么樣才算得上高質量同傳呢?我們邀請上海外國語大學高翻學院張愛玲院長,來跟我們分享一下她的看法。
晨璇:張院長分享了同傳工作中的幾個關鍵維度,“內容完整性”“信息準確性”“語言質量”和“溝通效果”。在機器同傳的場景下,同傳時延也是影響溝通效果的一個重要指標。講到這里,一起來試試訊飛星火語音同傳大模型。
境廷(產品經理):我手上這臺訊飛翻譯機集成了最新的同傳技術,一月特別適合去新西蘭,晨璇來扮演一下當地的導游,介紹一下眼前的風景吧。
境廷:有了星火同傳翻譯,在國外旅游時,就可以一邊看風景,一邊聽當地導游的中文介紹。
晨璇:但這種旅游場景還是挺簡單的。這次重磅升級的星火語音同傳大模型,可以再試試更難的內容。
境廷:我們有一位用戶是做建材出口的,他經常在展會這種比較嘈雜的環境上介紹產品,我現在把翻譯機連上藍牙音箱,來扮演一下這位用戶,你們作為海外客戶,感受一下。
晨璇:這種專業場景下,機器同傳很快,而且準確率也很高,再連接音箱的話,也完全能支持一個小型會議的同傳了。
境廷:而且翻譯機本身還有記錄功能,用戶可以事后隨時回溯對話內容,整個商談過程的關鍵信息都不會有任何遺漏。除了音箱,我們的翻譯機還可以搭配很多其他的配件,比如連上藍牙耳機,在工廠參觀或者在項目現場考察,有同傳加持,我們就可以邊走邊聊了。
晨璇:同傳譯員在練習同傳時,在雙語能力基礎上,要訓練聽力、記憶力、心理素質,還需要了解各行各業的知識,有句話叫“You should know something about everything”。那訊飛星火同傳大模型是怎么做到的語音同傳的呢?
亞楠:十年前訊飛就想做語音同傳,但發現技術太難了。現在大模型能力的發展,結合訊飛在智能語音技術上的獨特算法積累,我們終于可以做端到端的語音同傳。本次發布的星火語音同傳大模型,是一個模仿人類同傳譯員的思維鏈路來訓練的模型,在聽到聲音后進行實時意群理解和切分,結合上下文語境精準選詞,并進行碎片化信息的重組。
晨璇:這類似同傳工作中所謂的“順句驅動”原則,比如有句話 “I went to iFLYTEK for a seminar at 10 o'clock yesterday”,你們怎么翻譯?
亞楠:按照全句翻譯是“昨天十點,我去訊飛參加了一場研討會”,如果機器按意群直譯,就是“我去訊飛,為了一場研討會,在10點,昨天”。用大模型的生成能力做信息重組,就變成“我去了訊飛,去參加一場研討會,時間是昨天上午十點”。既滿足同傳延遲,又保證句意準確傳達。
亞楠:我們的流式合成技術會進行意群韻律銜接,并根據源語速自適應的調節合成語速。另外還會根據源語種和翻譯語種的時長差距,向大模型反饋信息,實時調整譯文的精煉度。這樣一來整個翻譯系統就可以流暢地運行起來。
晨璇:那目前整體的效果怎么樣?
亞楠:國外幾個主流的大模型以交傳為主,這里展示的是我們的同傳系統和國外交傳系統的對比。在內容完整度、信息準確度以及語言質量等幾個維度,效果都超過了國外的幾個主流大模型。而且我們的同傳系統還支持不同的時延模式,最快可以做到5s以內。
亞楠:聽演講,聽報告,大型會議的時候,語音到文字的同傳也是非常實用的,隨著這次同傳大模型的技術升級,也帶來了各場景的技術進步,我們全系產品的翻譯能力都有提升。
境廷:在翻譯機的應用上,我們整體翻譯能力的升級也一定能讓春節期間全家出游或者跨國探親的朋友們有更好的體驗!當然,針對語音到語音的同傳場景,我們的翻譯機將會配置耳機、音箱、麥克風,在今年推出商務套裝,滿足不同商務洽談場景使用。對于需要同傳的專業合作伙伴,訊飛同傳也限量開放了星火語音同傳大模型的功能入口,您也可以掃描二維碼申請試用!
以上就是本次訊飛星火大模型升級發布的全部內容。
-
華為
+關注
關注
216文章
34509瀏覽量
252367 -
科大訊飛
+關注
關注
19文章
816瀏覽量
61367 -
大模型
+關注
關注
2文章
2514瀏覽量
2929
原文標題:全程回顧:訊飛星火大模型1月15日升級發布
文章出處:【微信號:iFLYTEK1999,微信公眾號:科大訊飛】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論