1. GameGPT進軍游戲制作,全自動生成游戲,時間可縮百倍
原文:https://36kr.com/p/2491906953123720不得了了!GPT技能樹再成長,現在直接連游戲都能做了!?要知道,現在這個時代,已經不是過去那個做個小游戲就可以搶占市場的時代了。如今的游戲開發流程超級復雜。先說人力,每個游戲團隊的人員都是數以幾十甚至上百來記。有人負責編程,有人負責美工,有人負責維護,等等。每個游戲還都有龐大的代碼庫、素材庫。結果就是,開發一款優秀的游戲大作,需要大量人員,投入大量時間才能完成。而這個時間周期,往往要長達數年。 更直觀的,就是錢。游戲團隊開發一款能讓人們記住并且愛玩兒的大作,預算動不動就要超過1億美元。要不然怎么說,游戲制作算是一種用愛發電呢。現在,情況有變!有研究人員開發了一個叫GameGPT的模型,GameGPT可以整合多個AI智能體(agent)來自動完成游戲開發中的部分流程。而不同的智能體各司其職,工作起來井井有條。有智能體負責審查游戲的設計計劃,并進行相應的修改和調整;有的負責將任務轉化為具體的代碼;有的負責對上一步生成的代碼進行檢查,對運行結果進行審核;還有智能體負責驗證全部的工作是否符合初始預期。如此這般,通過細化分解工作流程,GameGPT就可以簡化AI智能體的工作。這種各司其職會更加有效率,實現起來也比一個全能型的智能體完成一切要簡單得多。研究人員表示,GameGPT可以簡化傳統游戲開發流程中一些重復和死板的內容,比如代碼測試。大量開發人員就可以從繁雜的檢驗工作中解放出來,專注于AI所不能替代的,更有挑戰性的設計環節。當然,這篇論文目前還處于一個比較初步的階段。目前還沒有任何具體的結果或者實驗來證明性能上的提高。換句話說,還沒人用GameGPT真的開發過游戲,這個模型目前還處在概念形成階段,在有具體的應用結果以及可量化的數據之前,咱也不好評估。不過,總歸是個努力的方向。有網友表示,人們對LLM的想法是有一定偏差的。現在,研究人員有了一種能夠100%解決NLP問題的工具,而人們卻只關心如何實現某些工作流程的自動化。舉例來說,想象一下如果游戲世界對你的決定做出的反應,要比你在五分鐘內判斷出基于規則的硬編碼引擎的反應更正常,那將會是怎樣的情景。再想象一下,如果一款游戲能根據你做出的決定(比如在路上隨機屠殺你看到的敵人等),為你臨時安排一些支線任務,那會是什么場景。而開發者在創建這樣一個系統時,會使用提示工程來指導LLM,而不是編碼這些東西。但是,這樣做的目的不是為了節省成本,而是為了在以前無法制作更多游戲的階段制作游戲(是不是有點拗口)。GameGPT首先,讓我們來看看GameGPT模型的大框架——全流程。可以看到,作者將每個智能體擬人化,更生動地展示了他們是如何各司其職的。流程最左側是用戶端,向GameGPT輸入prompt,然后開發經理和審核進行初步計劃。接著,再把需求發送給開發工程師,以及游戲引擎工程師,來執行具體的任務,生成代碼。最后檢查一下有沒有遺漏,有的話發回左側,再跑一遍。沒有就繼續向右,由負責檢查的工程師來進行testing。AI開發游戲??實際上,AI開發游戲歷史的雛形也許可以追溯到更早。AI在游戲開發中的應用可以追溯到「星際爭霸」和「暗黑破壞神」等經典游戲。在當時,開發人員需要用AI系統來制作交互式的虛擬世界和角色。而這些系統已成為此類互動平臺開發的標準配置。早期和游戲開發AI相關的研究強調控制非玩家的角色(NPC),而隨著自然語言處理(NLP)技術的發展,出現了一些利用深度學習技術生成關卡的開創性工作。其中代表作是MarioGPT,它通過微調的GPT-2模型成功生成了「超級馬里奧兄弟」中的部分關卡。而眾所周知,LLM又在今年取得了巨大進步,在NLP和計算機視覺(CV)領域都取得了不錯的成績。我們知道,LLM的訓練是一個多階段的過程。初始階段包括在廣泛的語料庫中訓練這些模型,促進基本語言能力的獲得。隨后就是更重要的階段了,通過指令(instruction)生成各種NLP任務的數據對模型進行微調。這種指令調整,增強了模型在廣泛應用中的泛化能力,從而可以讓LLM能夠在之前訓練中沒有執行過的任務中取得零誤差的性能。最后,人類反饋強化學習(RLHF)階段保證了模型的結構完整性和可靠性。這里還有一點需要注意——RLHF階段能讓模型生成模仿人類風格的內容,從而增強其作為智能體的多功能性。此外,LLM的進步還促進了智能體在軟件開發過程中的自動化。許多研究都曾經把目光放在過這個問題上——如何開發一個基于LLM的智能體,用來執行不同的任務。比方說AutoGPT就曾經采用LLM智能體來處理現實世界中的某些決策任務,而HuggingGPT則采用的是單個LLM作為一種控制器,來協調完成更加復雜的AI任務。雖說這些方法都依賴于唯一的LLM智能體,但它們都加入了一個審核者(就是上面流程圖里的reviewer)來完善決策。還是拿AutoGPT舉例,模型會從監督學習器中獲取一些輔助性的意見來提高自身性能,HuggingGPT也可以接入GPT-4,弄成一個reviewer,來評估決策的準確性。還有一些別的例子,比方說MetaGPT就引入了一個多智能體框架,可以用于各種軟件的自動化開發。而回到我們今天討論的游戲開發,我們要知道,與一般的軟件開發不同,游戲開發行業的運作需要緊跟潮流,因此整個開發過程必須更加精確和簡潔,以達到最佳效率。此外,在沒有幻覺和高精度的情況下,調整和使用單個LLM來服務于游戲開發的整個開發周期是不切實際的,而且成本高昂。因此,游戲開發AI的框架需要多個reviewer參與,這樣就能有效緩解語言模型所固有的幻覺傾向。研究人員還發現,在游戲開發中,語言模型還有另一個局限性——冗余性。LLM在游戲生成時,可能會生成不必要的、無信息量的任務或代碼片段。為了有效解決幻覺和冗余問題,今天的主角——GameGPT戰略性地采用了多種方法來解決這個問題,包括雙重協作、通過內部詞匯庫進行指令調整以及代碼的解耦。值得我們關注的是,雙重協作涉及到LLM與小型深度學習模型之間的互動,以及負責執行的智能體與reviewer智能體之間的協作參與。研究人員表示,這些協同作用已被證明,在減輕GameGPT的幻覺和冗余方面是有效的。方法介紹接下來,研究人員從全流程剖析一下GameGPT的創新。首先,在游戲設計階段,在收到用戶請求后,GameGPT的任務包括生成整個游戲的開發計劃。這個計劃階段是關鍵步驟之一,極大地影響了整個開發過程的無縫進展。這個階段由基于LLM的游戲開發經理策劃,先提出一個初始計劃,隨后分解成任務列表。值得注意的是,由于LLM固有的局限性,這個初始計劃經常會出現幻覺,從而產生意想不到的任務,包括沒有信息或不必要的冗余任務。為了應對這些問題,研究人員提出了四項可以減輕這些難題的策略,這四種策略相互正交的,并且可以分層執行以獲得更好的效果。方案一:對傳入請求進行分類,目的是辨別游戲的類型。目前,GameGPT框架支持五種不同游戲類型的開發,即:動作、策略、角色扮演、模擬和冒險。對于每種類型,研究人員都會提供標準化的計劃模板,指導游戲開發經理智能體使用相關信息完成模板。通過采用這種方法,冗余任務的頻率顯著降低,同時減少了幻覺發生的可能性。策略二:涉及計劃審查員智能體的參與,這是另一個基于LLM的代理。這個智能體通過精心設計的prompt進行操作,以此來對任務計劃進行全面的審查。它的主要目標是盡量減少幻覺和冗余的發生。該智能體評估計劃并提供反饋,旨在改進并提高其準確性、效率和簡潔性。同時,這一部分生成的指令可以作為游戲開發經理智能體的新輸入,使任務計劃更加準確和完善。策略三:通過專門的指令來調整游戲開發經理智能體的LLM本身,以便更好的進行游戲開發層面的規劃。這個微調過程的目的就是讓模型能生成一個既準確又簡潔的計劃。為了方便起見,研究團隊收集并整合了一個內部數據集,其中包括許多輸入輸出的搭配。雖然這些組合在長度或結構上不符合標準格式,但它們都圍繞著游戲開發的要求。 這部分固定搭配由業內的開發人員提供。通過采用這種方法,研究人員有效地彌合了LLM的一般語言能力與游戲開發規劃能力之間的差距。策略四:規劃階段的「安全網」。在整個計劃過程中,游戲開發經理智能體始終在前端界面上與用戶分享中期結果,使其余的智能體能夠隨時了解正在進行的開發是什么。為了增強這一點,研究人員集成了一種交互式方法,使用戶能夠根據他們的期望積極地審查、糾正和增強計劃。這種方法也保證了設計計劃和用戶需求之間的一致性。說完了這些策略,我們來看看GameGPT的優越性。首先,這個模型中的任務分類過程要求在識別任務類型及其對應參數方面具有很高的準確性。因此,研究人員為了確保這一階段的準確性,創建了一個名為游戲開發工程師的智能體。該智能體由兩個模型共同組成,它們協同參與任務分類的流程。這種協作方法提高了任務識別的準確性和有效性。同時為了避免LLM幻覺的出現,提高任務分類的準確性,研究人員提供了游戲開發中可能出現的任務類型列表。為了對此進行更好的分類,他們采用了BERT模型。BERT模型已經用內部數據集進行了完整的訓練。該數據集包含針對游戲開發任務所量身定制的各項數據條目。而輸入則是從預定列表中繪制任務,而輸出對應的則是任務的指定類別。任務類型和參數的審閱都在這個階段進行,引入一個叫做任務審閱人員的智能體,主要負責每個類別的識別和參數是否合理。評審(review)的過程包括審核任務類型是否在預定范圍內,是否是最適合的任務。同時,它還會檢查參數列表,看看它是否與任務一致。某些場景下,比如一些基于上下文任務信息的,或者用戶請求無法推斷參數的情況,GameGPT采用了一種主動的方法來解決。Reviewer通過在前端界面上啟動提示,并請求參數所需的附加信息來吸引用戶注意。這種交互方法的好處在于,即使在自動推理不足的情況下也能確保論證細節的完整性。此外,還有另一個智能體負責識別任務之間的依賴關系,并構造一個封裝這些關系的圖表。在建立該圖之后,再采用算法來對該圖進行遍歷篩選,由此產生一個確定的任務執行順序。這個過程確保了模型可以按照任務的依賴關系有序和系統地執行,從而產生連貫和結構化的開發流程。另一個問題是,使用LLM生成冗長的代碼會帶來更大的幻覺和出現冗余的風險。為了解決這個問題,研究人員引入了一種新的方法來解耦游戲設計中出現的代碼,簡化了LLM的推理過程,從而極大程度減輕了幻覺和冗余。這個方法也并不難理解——研究人員會將預期的腳本劃分為許多長度更短的代碼片段,以供LLM處理。這種解耦方法大大簡化了LLM的工作。還有一種叫做上下文學習的有效推理方法,也可以有效地減輕幻覺。此外,GameGPT中應用的另一種消除幻覺的技術,包括為每個任務生成一組K個代碼的代碼片段。 這些代碼片段隨后會在虛擬環境中進行測試,并同時呈現給用戶。測試過程和用戶反饋都被用來識別和消除有問題的代碼片段,最終只留下最可行的選項來執行。這種方法同樣有助于進一步減少幻覺的發生。此外,研究人員還有一個內部的庫,包含為游戲開發設計的大量代碼片段。每一個代碼片段都由標簽器進行了注釋,提供了明確說明其預期目的的說明。概括一下就是,為了讓代碼不冗余,不幻覺,開發人員做了兩手準備,事前的和事中的。同時,上面提到的這個庫也是對模型進行微調的寶貴資源。代碼審查和改進在游戲引擎智能體生成代碼之后,代碼審查智能體會對代碼庫進行徹底的審查和檢查。該智能體會進行全面的評估,努力找出任何可能會偏離原始請求的實例,或代碼中出現的意外幻覺。經過徹底的審查,智能體不僅能標記出潛在的差異,而且還能據此提供改進代碼的建議,最終產生更為合理的版本。在審查過程之后,修改后的代碼以及智能體的反饋都將通過前端界面與游戲引擎工程師智能體和用戶共享。如果用戶認為有必要,可以直接通過前端界面提供代碼修改建議。之后這些建議會繼續傳遞給代碼審查智能體,它會進行評估,并有選擇性的合并這些建議,從而進一步生成一種協作和迭代的方法來增強代碼。最后,一旦代碼生成完畢,該干的也都干完了,責任就落到了游戲引擎測試智能體的身上,由這個智能體來負責執行生成的代碼。在這一階段,該智能體還會遵循在前一階段所制定的執行順序。具體的執行過程包括將每個單獨任務的代碼發送到游戲引擎,進行執行,并在執行期間持續跟蹤,生成日志。在完成執行序列中指定的所有任務后,智能體會合并整個執行過程中生成的所有日志。最終,這種編譯生成了一個簡潔而全面的摘要,再通過前端界面呈現給用戶。此外,測試工程師智能體還會識別并報告在執行過程中觀察到的任何回溯情況的出現。這些回溯會作為關鍵的指示器,指示AI對執行流程或代碼進行更進一步的調整,使整個過程得以細化,并有助于生成一個完美的最終產品。最后,再來看下多個代理同時工作的框架公式:首先,在GameGPT中,每個代理都有一個私有的記憶系統,并且它們可以訪問共享的公共內容,以獲取必要的信息來指導其決策過程。對于時間步長為t的代理i來說,這一過程可表示為:其中pθi對應的是和代理i相關的LLM或專家模型,Oit表示代理i在時間步長為t時的產出或可交付成果,Mit和Pt分別指截至時間步長t內,所有的私人記憶和必要的公共記錄。由于游戲開發行業的特殊性和大語言模型的局限性,在GameGPT中,具有不同角色的多個代理的存在至關重要。鑒于游戲開發周期通常長達數月,如果只依賴一個擁有全面記憶和上下文信息的單個代理,語言模型(包括LLM)的效率將大打折扣。而隨著時間的推移,項目變得越來越復雜,這種方法也會帶來可擴展性方面的挑戰。此外,考慮到LLM所處理的標記數量的限制,在大型游戲開發項目中使用具有全面內存的單獨代理并不實用。還有,在LLMs中觀察到的幻覺和冗余等固有問題凸顯了多個代理之間協作的重要性,尤其是那些具有批判性角色的代理。這種協作對于減輕LLM幻覺和冗余帶來的挑戰意義重大。因此,GameGPT才利用一系列不同的角色來促進其運作,包括整個游戲開發周期的職責。這些角色包括上文提到的游戲內容設計師、游戲開發經理、計劃審核員、游戲開發工程師、任務審核員,還有游戲引擎工程師、代碼審核員和游戲引擎測試工程師。在整個游戲開發過程中,每個角色都承擔著不同的任務。參考資料:https://arxiv.org/pdf/2310.08067.pdf
2. 美國出口管制影響英偉達AI芯片業務,對全球AI市場產生深遠影響
原文:https://www.sohu.com/a/731453805_12141173710月25日,全球領先的圖形處理器和人工智能(AI)技術巨頭英偉達(NASDAQ: NVDA)在向美國證券交易委員會(SEC)遞交的一份文件中披露,美國政府已通知公司,針對適用于總處理性能大于等于4800TTP并為數據中心設計或銷售的產品的相關出口管制立即生效。這一新政策將直接影響英偉達的A100、A800、H100、H800和L40S產品。首先,從宏觀經濟角度看,美國的出口管制政策將對全球AI市場產生深遠影響。英偉達作為全球最大的AI芯片供應商之一,其產品在全球范圍內廣泛應用,包括云計算、大數據處理、自動駕駛等多個領域。此次出口管制政策的實施,無疑將對全球AI市場的供應鏈造成一定沖擊,可能導致相關產品的供應短缺,進而推高價格。其次,從行業競爭角度看,美國的出口管制政策可能會改變全球AI芯片市場的競爭格局。由于英偉達的產品在全球市場上具有領先地位,其他競爭對手可能會借此機會提升自身的市場份額。然而,這也取決于這些競爭對手是否有足夠的技術和生產能力來填補英偉達產品的空缺。再次,從英偉達自身角度看,美國的出口管制政策將對其業務發展產生重大影響。 一方面,由于出口管制,英偉達的部分產品可能無法進入某些市場,從而影響其全球業務的擴張。另一方面,由于供應短缺,英偉達的產品可能會出現價格上漲,這可能會影響其在全球市場上的競爭力。總的來說,美國的出口管制政策將對全球AI市場、行業競爭格局以及英偉達自身的業務發展產生深遠影響。未來,市場將密切關注這一政策的進一步動態以及英偉達的應對策略。
3. Jina AI 推出全球首個開源 8K 文本嵌入模型,號稱“超越 OpenAI”
原文:https://www.ithome.com/0/727/817.htmIT之家 10 月 26 日消息,Jina AI 在其官網發布新聞稿,宣布推出 jina-embeddings-v2 模型,號稱是目前是唯一支持 8K(8192 個 token)上下文長度的開源產品,在功能和性能上與 OpenAI 的 text-embedding-ada-002 類似。 在大規模文本嵌入基準 (MTEB) 排行榜方面,IT之家發現,官方進行如下解釋:
與 OpenAI 的 8K 模型 text-embedding-ada-002 進行比較,jina-embedding-v2 在分類平均值、重排平均值、檢索平均值和摘要平均值方面均優于 OpenAI 的 text-embedding-ada-002。官方表示,jina-embeddings-v2 模型,是從頭開始構建的。在過去的三個月里,Jina AI 團隊進行了密集研發、數據收集和調整。Jina AI 同時聲稱, jina-embeddings-v2 8K 的上下文長度有利于以下應用場景:
法律文件分析:確保對大量法律文本中的每一個細節進行捕捉和分析。 醫學研究:為了進行高級分析和發現,全面地嵌入科學論文。 文學分析:深入研究長篇內容,捕捉微妙的主題元素。 財務預測:通過詳細的財務報告獲得卓越的洞察力。 會話式 AI:提升聊天機器人對復雜用戶查詢的響應能力。
4. 訊飛星火 V3.0:給 AI 注入靈魂,“哪吒”“諸葛亮”多種人設可定制
原文:https://www.ithome.com/0/727/814.htm對開發者而言,1024 是計算機操作系統的進程單位,也是程序員們的特殊紀念日。在 10 月 24 日這一天,科大訊飛全球 1024 開發者節在合肥拉開帷幕。但與往年不同的是,今年隨著 AIGC 浪潮席卷全球,科大訊飛率先投身大模型研發領域,并在“1024”這一天發布了足以匹敵 ChatGPT 的星火認知大模型 V3.0(簡稱“星火 V3.0)。熟悉星火大模型的用戶都知道,早在 5 月 6 日星火“首發”時,科大訊飛董事長劉慶峰就給出了年內的三大迭代“時間表”。其中 10 月 24 日分量最重,關注度最高,因為星火將向 ChatGPT 發起挑戰。在星火 V3.0 發布會上,劉慶峰表示:“自訊飛星火發布以來,代碼能力持續升級,星火 3.0 已基本整體超越 ChatGPT,正在追趕 GPT-4”。是什么給了星火超越 ChatGPT 的“底氣”?那就是技術端的穩步迭代,應用端的百花齊放。早在 5 月 6 日首場發布會上,訊飛就引入認知智能全國重點實驗室牽頭設計的標準化評測體系,通過對影響大模型聰明度的七大能力分項考核,實現對星火大模型能力的通盤評估。依托這套評測體系構建的測試集,星火 V3.0 七大能力持續提升,其中代碼能力、語言理解、邏輯推理與 AI 人設重點升級,而這也是決定大模型“聰明與否”的關鍵能力。因此,星火 V3.0 在中文能力客觀評測層面超越了 ChatGPT,在英文能力對標 ChtaGPT 48 項任務結果相當,兌現了“中文超越、英文相當”的諾言。據國務院發展研究中心國研經濟研究院的測評報告,星火 V3.0 不僅綜合能力超越 ChtaGPT,達到國內領先、國際一流水平,更在醫、法、教等諸多行業表現突出。在應用端,星火大模型以“小助手”形態深入行業、遍地開花,現有的 15000 + 助手開發者,已開發出 29000 + 助手應用,這些都是靈感匯聚的窗口。但之前星火小助手還缺乏靈魂,也就是我們常說的“人格化”,而此次星火 V3.0 就完美補齊了這個短板。在訊飛研究院院長劉聰的演示下,虛擬人格應用“星火友伴”成為了全場最靚的仔。劉聰通過對星火賦予“哪吒”和“諸葛孔明”的人設,瞬間讓字里行間充滿人格魅力。諸如哪吒三太子標志性的“我命由我不由天”的口頭禪,以及諸葛亮評定大模型可助主公解惑、亦可用于治國安邦的評語,都結合了人物的歷史背景和表達習慣,讓溝通充滿人情味。除了通用智能應用端,星火還持續賦能千行百業,尤其是被譽為現代文明基石的工業。根據數據顯示,中國約有 800 萬軟件從業人員,2022 年軟件業務收入 10.8 萬億元,占 GDP 比重高達 8.93%,2028 年預測將達到 20 萬億,因此大模型賦能工業首先要賦能代碼。這次,星火 V3.0 帶來了進一步升級的智能編程助手 iFlyCode 2.0,根據訊飛內部項目應用實踐統計,其在設計、編碼和自測三大階段的提效幅度分別達到 50%、37% 和 44%。而在對外數據上,iFlyCode 應用在“智慧課堂”的產品跨平臺改造中,將傳統開發方式所需 3 個月的耗時,直接縮短至 1 個月。目前,iFlyCode 在京東云、軟通動力等 107 家機構實現深度對接應用。對訊飛而言,賦能教育也是星火自誕生以來的堅定方向。這次星火 V3.0 帶來了 AI 心理伙伴,通過多模態情感識別、共情表達、尋因式提問、個性化心理指導四大能力,幫助青少年排憂解難,疏導心理。星火 V3.0 還帶來了啟發互動式英語 AI 答疑輔學,通過引導式提問、個性化解答和探究式互動學習,激發孩子的探究欲,讓他們從厭學變成想學。據悉,科大訊飛 AI 學習機 T20 系列、Lumie 系列將在 11 月 1 日期開啟免費升級。從外行不看好,到同行趕不上,星火 V3.0 一步一個腳印朝著趕超 ChatGPT 的目標不斷前進。但劉慶峰也清醒的意識到國產大模型與 GPT-4 的差距,他表示:“國產大模型在復雜知識推理、小樣本快速學習、超長文本處理、跨模態統一理解上距 GPT4 還有差距。”但既然找到問題所在,星火不斷查漏補缺,總有一天會實現對 GPT-4 的追趕。出于對大模型原研技術的自信,劉慶峰給出了星火對標 GPT-4 的時間點,當大屏幕上出現“2024 年上半年”的時候,無論是線下的來賓還是線上的觀眾都備受鼓舞。隨著以訊飛星火大模型為代表的第一梯隊的不斷追趕,中國自己的大模型將屹立于世界舞臺,與 ChatGPT 在切磋較量中而占據上風!
5. 生成式AI落地,高通向上突圍
原文:https://www.sohu.com/a/731277316_10010680110月25日,高通公司召開2023驍龍峰會,正式發布了全新第三代驍龍8移動平臺、驍龍X Elite、第一代無線音頻平臺S7系列,以及跨終端制造商和操作系統(OS)實現多終端無縫協作的Snapdragon Seamless。作為峰會重頭戲,驍龍8 Gen 3基于臺積電N4P工藝制程打造,采用了1+5+2的全新架構設計,包含1顆Cortex-X4超大核、5顆Cortex-A720大核和2顆Cortex-A520小核。GPU采用了新一代Adreno GPU,值得一提的是,驍龍8 Gen 3的AI性能提升了98%,能效提升40%。 此前,高通公司宣稱驍龍8 Gen 3是首款專為生成式AI而設計的移動平臺,也是市場上最強大和功能最齊全的移動平臺,并表示驍龍8 Gen 3將會“挑戰主機”和“高端級別”。全新的智能PC計算平臺驍龍X Elite也是一大亮點。驍龍X Elite基于定制的Oryon CPU核心,相同功耗下CPU性能可達到x86處理器競品的2倍;峰值多線程CPU性能比Arm處理器蘋果M2芯片高出 50%。GPU方面,算力達到4.6 TOPS,支持4K、120Hz、HDR10顯示,支持三個4K或者雙5K輸出。AI算力方面更是達到了45 TOPS,相較2017年性能提升了約100倍。不難發現,芯片行業已行至十字路口,擁有更強大的性能或許只是基本功,而擁有強悍的AI能力,才能承載起引領下一個時代的重任。一、押注混合AI,掌握話語權自2007年的驍龍S系列處理器問世,到后來的“驍龍+數字”系列,再到2022年11月發布的驍龍8 Gen 2,高通公司的芯片已被廣泛應用在國產高端旗艦手機、平板等移動終端,建立起了舉足輕重的話語權。根據市場調研機構Counterpoint的數據,2021年全球安卓智能手機芯片市場,高通公司在中高端(300-499美元)的智能手機細分市場,占據了高達65%的市場份額,在500美元以上的高端市場,也占據了55%的市場份額。盡管地位一直很穩固,競爭對手也幾乎難以撼動,但對于高通公司而言,在單純比拼參數的時代結束之后,如何繼續掌握行業話語權,仍是不得不深度思考的難題。高通公司將2023年驍龍峰會主題定為“讓AI觸手可及”,其解決方案已經擺在臺面上:無論是驍龍8 Gen 3,還是驍龍X系列,AI性能才是核心競爭力,“AI能力”將成為芯片行業的角力點。事實上,從驍龍8 Gen 1開始,高通公司就已十分重視芯片的AI算力,驍龍8 Gen 1的AI算力可以達到9 INT8 TOPS(每秒萬億次操作),而在驍龍8 Gen 2上,AI算力提升了4.35倍,約為39 INT8 TOPS。AI算力仍在持續提升中。高通公司在《混合AI是AI的未來》白皮書中提到,高通已經在移動端運行超過10億參數的AI運算。隨著生成式AI的飛速普及和計算需求的日益增長,混合處理的重要性空前突顯,AI處理必須分布在云端和終端進行,才能實現AI的規模化擴展并發揮其最大潛能。與僅在云端進行處理不同,混合AI在云端和邊緣終端之間分配并協同處理AI工作負載。云端和邊緣終端(如智能手機、汽車、PC和物聯網終端)協同工作,能夠實現更強大、更高效且高度優化的AI。高通公司認為,混合AI將支持生成式AI應用開發者和提供商利用邊緣側終端的計算能力降低成本。混合AI架構或僅在終端側運行AI,能夠在全球范圍帶來高性能、個性化、隱私和安全等優勢。2023年2月,高通公司在社交平臺上發布了一段視頻,演示了在Android手機上本地運行生成超10億級數據的AI圖像,整個過程不到15秒,向外界展示了高通公司在混合AI方面的成就。在2023驍龍峰會上,高通公司CEO克里斯蒂亞諾·安蒙表示,第三代驍龍8移動平臺率先支持多模態通用AI模型,現已支持運行超100億個參數的大模型。AI時代已來臨,高通公司正打算借助自研架構的優勢,將混合AI推廣到更多產品上。不過,理論距離實際落地還需要很長的路要走,混合AI究竟會不會成為高通公司向上的突破口,還有待時間和市場的檢驗。二、驍龍X能否變革PC行業?手機芯片之外,高通公司決心以驍龍X Elite為切入點,加碼PC市場。高通公司預測,“2024年將成為PC行業的轉折點,驍龍X計算平臺將帶來更高水平的性能、AI、連接和電池續航。”高通公司對驍龍X Elite寄予厚望:一方面,近年來傳統PC行業主要升級點集中在硬件性能的提升,通過堆疊更多的硬件來實現設備體驗的升級,AI能力缺失;另一方面,PC行業正在逐漸向智能化、生態化方向演進,并逐漸成為智慧終端設備生態體系中的一個關鍵節點。加碼PC市場,不僅能擴展芯片的應用場景,同時還能緩解智能手機出貨量逐年下降而帶來的危機。雖然PC出貨量比不過智能手機,但依然是個巨大的市場。根據市場調查機構IDC的統計數據,2023年第三季度,全球PC出貨量環比增長了11%,出貨量為6820萬臺,盡管全球經濟依然低迷,但過去兩個季度的PC發貨量均有所增長,表明PC市場已經走出低谷期。與此同時,PC行業也亟需一場變革。根據《2020年筆記本電腦九大消費新趨勢》報告,消費者購買筆記本電腦時除了關注綜合性能和整體外觀設計之外,智慧交互成為消費者購買時新的關注點,移動化辦公成為常態之后,不同設備間的信息流轉、交互,已成為消費者的剛需。有觀點認為,高通公司此時推出驍龍X Elite,是在直接對標蘋果M系列芯片,“驍龍X Elite強調的性能、功率,以及神經處理功能,這些都是蘋果M系列芯片的強項,如果驍龍X Elite真能提供與M芯片相近的體驗,那Windows用戶或將迎來全新的PC體驗”。不過,在智慧PC領域,蘋果仍是當之無愧的霸主,其先后從系統和硬件兩個方面切入,其有著完整的底層系統和完整的生態設備,通過賬號打通了智能手機、平板和PC之間的數據通道,同時也實現了不同平臺應用的跨平臺使用、隨航、隔空投送等功能。相比之下,高通公司仍有所欠缺。然而不可否認的是,驍龍X Elite是一項重要的技術創新,尤其是其AI處理能力是競品的4.5倍,異構AI引擎性能可達75 TOPS,為PC行業帶來了更高效、更智能的計算體驗,有望在英特爾、蘋果等競爭對手的圍追堵截下,帶來PC行業的變革。三、開拓汽車領域,布局第二曲線一直以來,智能手機芯片都是高通公司的核心業務,但隨著智能手機市場增長放緩,市場空間趨于飽和,高通公司近年來正從智能手機芯片向汽車芯片轉型。汽車行業已成為高通公司重點發力的領域。2023財年第二財季財報顯示,高通公司的總營收和凈利潤雙雙出現了同比下降的情況,但來自汽車芯片業務的收入卻十分亮眼,財報顯示,汽車芯片業務收入同比增長20%至4.47億美元。此前,高通公司在投資者日活動上表示,未來十年內,圍繞芯片和軟件的市場規模將達到約7000億美元,其中汽車市場占據1000億美元,主要分布在車聯網芯片相關的160億美元、智能座艙的250億美元以及智能駕駛的590億美元這三個領域。每輛汽車在以上三個領域所需的芯片和軟件費用從基礎的200美元起步,到高端的3000美元。隨著智能網聯汽車的飛速發展,汽車芯片早已成為高通公司的潛在市場。高通公司首席執行官Cristiano Amon在慕尼黑IAA車展期間表示,高通預計到2026年其汽車業務的收入將達到40億美元,到2030年將增至90億美元,“我們一直關注于尋找新的增長領域,而汽車就是其中之一。”為了實現第二增長曲線,高通公司在智能汽車領域進行了大量的技術布局,比如恩智浦、瑞薩等傳統汽車電子巨頭仍采用22nm工藝時,14nm的智能座艙芯片驍龍820A已經完美兼容QNX、CarPlay、Android Auto等主流座艙系統,車企可以通過OTA向車主發送最新固件,而車主可以像升級智能手機一樣獲取最新最強大的車載系統。不只是智能座艙領域,高通公司也在不斷往智能駕駛方向滲透。2021年10月,高通公司聯合紐約投資機構SSW Partners,以45億美元的最終價格收購了汽車技術公司維寧爾,獲得后者軟件部門Arriver的100%控制權。收購完成后,高通將Arriver的計算機視覺、駕駛策略和駕駛輔助資產與Snapdragon Ride平臺進行整合,形成一個可擴展的產品組合。2023年5月,高通公司還公布了其面向自動駕駛的驍龍Ride系列芯片,包含自動駕駛芯片Ride SoC、艙駕一體芯片Ride FlexSoC,算力進一步增強。從智能手機芯片到汽車芯片,再到將混合AI融入旗下所有產品中,高通公司正試圖從一個智能手機芯片制造商,轉變成為一個多元化的半導體供應商,但不容忽視的是,轉型之路仍然任重道遠。
6. 《時代》雜志發布“2023 年最佳發明”榜單,14 個 AI 項目一覽
原文:https://36kr.com/p/249061117222106010 月 24 日,《時代》雜志發布“2023 年最佳發明”榜單,涵蓋了如人工智能、綠色能源和可持續發展等重點領域。據悉,此次評選的標準包括獨創性、效率、影響力等,共計 200 項突破性發明(以及 50 項特別獎發明)入選,這些發明正在改變我們的生活、工作、娛樂方式,以及對可能事物的思考。以下是 AI 領域 14 項入選發明的簡介:1. 跳出框框自由編輯:Adobe Photoshop Generative Expand 和 Generative FillAdobe 通過在全球最受歡迎的圖像編輯器 Photoshop 中內置人工智能技術,讓數百萬人掌握了強大的 AI 功能。在 Adobe 的 AI 圖像生成器 Firefly 的支持下,Photoshop 現在包含了“生成擴展”(Generative Expand)和“生成填充”(Generative Fill)功能。前者允許用戶在照片的邊界之外無縫填充想象的內容。后者只需輸入一些簡單的文字,就能在現有圖像中添加或刪除內容。這兩種功能都不需要專業技術。Adobe 數字媒體高級副總裁 Ashley Still 說:這些選項使“客戶能夠以想象的速度將他們的愿景變為現實”。2. 改變游戲規則的聊天機器人:OpenAI GPT-4OpenAI 的 GPT-4 自 3 月份發布以來已有 8 個月,而它仍然是公眾可以使用的最強大的聊天機器人。其前身 ChatGPT 的表現僅優于 10% 參加律師資格考試的學生,而 GPT-4 的表現則超過了 90%。它擅長語言推理,能把復雜的概念分解成簡單的語言,甚至能解釋一個笑話為什么好笑。今年 9 月,OpenAI 開始推出通過語音與模型互動以及使用圖像作為輸入的功能。更新后的 GPT-4 V 在為視障人士提供工具的組織 Be My Eyes 中進行了測試,可以用自然語言口頭描述圖片內容。3. 別出心裁的電影剪輯:Runway Gen-2
Runway 是一家由谷歌支持的初創公司,其視覺特效工具曾被用于制作奧斯卡獲獎影片《Everything Everywhere All At Once》中令人匪夷所思的畫面。6 月,Runway 推出了 Gen-2 模型。新版本允許任何人通過文字提示、圖片或其他視頻生成完整的視頻。Runway 聯合創始人兼首席執行官 Cristóbal Valenzuela 將這項新技術比作 200 年前照相機的發明。他說:“人工智能是一種新型照相機,它將永遠重塑講故事的方式,并帶來完全生成的完整故事片。”
4. 人工智能鑒定真偽:Alitheon FeaturePrint 解決價值數萬億美元的假冒商品問題的方法可能很簡單,只需將手機的攝像頭對準手表或手提包,然后讓智能軟件確定其真偽即可。FeaturePrint 是一種光學人工智能技術,它首先能“看到”實物微小的表面細節,并將其“指紋化”為獨特的數學標識。然后,只需點擊一下按鈕,它就能告訴你一件物品的真假。Alitheon 首席執行官 Roei Ganzarski 說:“不需要貼紙、標簽或標記。客戶之一是 Argor-Heraeus,該公司為各國銀行生產金條。”5. 天空之眼:Dedrone 全城無人機探測 無人機既能帶來破壞,也能帶來益處。Dedrone 的全城無人機探測產品可在某一地理區域周圍投擲虛擬防護罩,如果無人機進入指定空域,可在數秒內向執法部門發出警告。Dedrone 跟蹤無人機發出的專有混合信號,包括無線電頻率、ADS-B 數據(也用于飛機)和 RemoteID 信標,以確定入侵位置。公司首席營銷官 Mary-Lou Smulders 將其比作無人機的空中交通管制系統,這在此前所沒有的。客戶包括 Con Edison,該公司正在用它來保護自己的基礎設施;巴塞羅那的警察部隊;以及數量不詳的機場。6. 翻譯大師:Meta SeamlessM4TMeta 公司將其 SeamlessM4 T 人工智能模型比作《銀河系漫游指南》中的萬能語言翻譯器巴別魚(Babel Fish)。該公司的軟件能夠從語音或文本中理解近 100 種語言,并能以語音到語音、文本到文本、語音到文本或文本到語音等多種形式實時翻譯這些語言。據 Meta 公司稱,除了可處理的語言遠多于前代產品外,該系統的效率更高,出錯率更低,甚至可以破譯同一句子中混合在一起的多種語言。Meta 已將該模型開源,這意味著全世界的研究人員都可以使用其代碼。7. 驚人的模仿:So-VITS-SVC 今年早些時候,一位名叫 Ghostwriter 的匿名創作者創作的一首名為《Heart on My Sleeve》的歌曲引起了轟動。(這首歌很快就被合法的流媒體服務撤下,但在此之前,它已經成為了病毒式的傳播)。這些聲音是通過名為 So-VITS-SVC 的開源軟件生成的,該軟件允許技術人員對歌手的聲音進行神經網絡訓練,然后使用人工智能生成的聲音制作任何歌曲。愛好者們在 Discord 社區交換語音模型,從 Bad Bunny 到 Taylor Swift,再到 James Hatfield。與此同時,采用該軟件的用戶友好型網站也如雨后春筍般涌現。8. AI 消防員:AlertCalifornia 和 Cal Fire AI 野火探測器 在野火蔓延之前對其進行檢測是目前困擾世界許多地區的一項挑戰。加州大學圣迭戈分校的公共安全項目 AlertCalifornia 正在利用人工智能提供幫助。該項目與加州消防局(Cal Fire)合作,訓練人工智能從遍布全州森林的 1050 多個攝像頭網絡中檢測煙霧和其他早期火災跡象。系統一旦發現異常,就會通過短信向當地消防部門發出警報。在最初的兩個月里,該系統在接到任何報警電話之前就正確識別出了 77 起火災。AlertCalifornia 的聯合首席調查員 Falco Kuester 說:“這個(系統)最大的成功案例就是那些你從未聽說過的火災。”9. 輕松創建音樂:Stable AudioStable Audio 由 Stability AI 公司創建,它利用人工智能的生成能力,只需幾個簡單的文字提示,就能生成幾乎任何你想要的聲音或歌曲。(例如,輸入 "ambient techno, drum machine, peaceful, instrumental",就能生成一首輕松的新時代音樂,放在時髦的休息室里也毫不突兀)。該模型是在一個庫存音頻網站的數據集上訓練出來的(所以都是合法的),其中包含 80 多萬個音頻文件,總計 2 萬小時,可用于專業和業余項目。10. 動物保護者:TrailGuard AI 在印度和非洲的部分地區,偷獵仍然是大象和大型貓科動物滅絕的最大威脅,即使在保護區內也是如此。美國環保組織 Resolve 創建的人工智能蹤跡保護系統(TrailGuard AI)利用英特爾(Intel)技術驅動的微型攝像頭來監控瀕危物種和發現偷獵者。該系統利用手機或遠距離無線電信號,在短短 30 秒內就能將圖像傳送到當局的手機上。TrailGuard 定制的人工智能模型經過訓練后,不僅能偵測人類,還能偵測從老虎到鬣狗等任何感興趣的物種。該技術在東非的測試階段逮捕了 30 多名偷獵者,目前正在老虎密集的印度中部進行大規模測試。11. 畫出你的想象:OpenAI Dall-E 3 當 OpenAI 在去年 11 月向全世界發布 ChatGPT 時,它徹底改變了人工智能的格局。該公司希望 DALL-E 3(其人工智能圖像生成器的全新改進版)也能產生同樣的影響。DALL-E 3 的發明者、OpenAI 的 Aditya Ramesh 說,以前的圖像生成器需要學習一門新的技術語言,包括在字符串中添加減號和數字,才能獲得最佳效果。而 DALL-E 3 則不同,它可以折疊到 ChatGPT 中,這樣用戶就可以輸入會話命令,獲得符合其描述的圖像。12. 聽好了:古騰堡計劃開放式有聲讀物合集 古騰堡計劃(Project Gutenberg)是歷史最悠久的數字圖書館,成立于 1971 年,旨在讓人們更容易獲得電子圖書。但首席執行官 Greg Newby 說,它“既不擅長創建,也不擅長傳播”。因此,微軟和麻省理工學院聯手制作了“開放式有聲讀物合集”,利用文本到語音技術將 5000 本圖書轉化為免費的合成旁白有聲讀物,現在可在 Spotify 上下載。推動該項目的軟件也免費發布。13. 節拍:AudioShake當最偉大的搖滾樂隊之一最近達成協議,在廣告中使用其 1970 年代的熱門歌曲時,其成員欣喜若狂。但有一個問題:廣告制作人只想要樂器,而樂隊擁有的只是最終的混音。因此,搖滾樂隊的團隊聯系了 AudioShake,該公司的人工智能程序可以隔離預先錄制的音頻元素,將其分解為各個組成部分。“我們使音頻具有交互性和可編輯性,并能夠推動這些真正實用的用途,幫助藝術家賺錢,”聯合創始人兼首席執行官 Jessica Powell 說。14. 反思智能手機:Humane Ai Pin 創辦 Humane 的兩位前蘋果公司高管設想了一個無屏幕的未來,Ai Pin 就是他們邁出的第一步。一旦輕巧的 Humane Ai Pin 通過磁力吸附在你的衣服上,它就會成為你的人工智能個人助理。該設備結合使用專有軟件和 OpenAI 的 GPT,讓您可以完成各種操作,從提出復雜的問題到撥打電話和發送短信,所有這些都只需你一聲令下即可完成。同時,內置攝像頭可以識別事物并提供上下文信息,例如食物的卡路里估值。每當 Pin 的攝像頭、麥克風或輸入傳感器處于激活狀態時,一個名為“信任燈”的顯著隱私指示燈就會亮起,以確保周圍的人都知道它在監聽或錄音。如果你需要視覺效果,一個微型投影儀會將它們直接投射到你伸出的手掌上。這款產品計劃于 11 月 9 日推出。注:Humane 投資者包括《時代》周刊的聯合主席和所有者 Marc Benioff 和 Lynne Benioff 夫婦———————End———————
點擊閱讀原文進入官網
原文標題:【AI簡報20231027期】英偉達AI芯片業務遭管制,生成式AI落地,高通向上突圍
文章出處:【微信公眾號:RTThread物聯網操作系統】歡迎添加關注!文章轉載請注明出處。
-
RT-Thread
+關注
關注
31文章
1301瀏覽量
40265
原文標題:【AI簡報20231027期】英偉達AI芯片業務遭管制,生成式AI落地,高通向上突圍
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯網操作系統】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論