2023 年廣州車展,又是煙花繚亂的新車上市,想到半年前的上海車展,一樣的百花齊放,所有車企用盡辦法留住客戶的目光。
但是似乎這半年,似乎什么都沒(méi)有發(fā)生,層出不窮的產(chǎn)品,不斷新品被轉(zhuǎn)移的注意力和被迫加入價(jià)格戰(zhàn)的各大車企。
半年前的話題是什么?
新勢(shì)力會(huì)的我們?nèi)昃蛯W(xué)會(huì)了,我們會(huì)的新勢(shì)力永遠(yuǎn)學(xué)不會(huì)。
德國(guó)大眾看完國(guó)內(nèi)車企功能之后,火速解雇自家軟件公司 CEO。
年底百城,全國(guó)都能開(kāi)城市 NOA。
可見(jiàn)即可說(shuō)。
半年過(guò)去了,智能電動(dòng)汽車的智能真的到來(lái)了嗎?多一個(gè)功能,多一種控制車的方式,就可以稱之為智能電動(dòng)汽車變革了嗎?
很顯然不是,這些都只是智能汽車的表象變化。
所以廣州車展,車企宣傳的方式與上海車展幾乎沒(méi)有區(qū)別。
真正的智能,一定是從 AI 底層去思考。多一種交互方式不是真正的智能,就像人類,智慧是靠大腦決定的,而不是靠四肢。
很遺憾的是,很多車企強(qiáng)的是四肢的執(zhí)行,而不是大腦的智慧的演進(jìn)。
但是最近發(fā)布的極越 01 喊出的口號(hào)是「未來(lái)十年的車,都會(huì)有極越 01 的影子」。
那差異在什么地方,百度這么多年的 ALLIN AI, 又能給智能汽車提供什么能力?
如果我們希望真正的智能出現(xiàn)在汽車內(nèi),車企們需要做什么?
在回答這個(gè)問(wèn)題前,我想先探討下智能的定義,為什么人工智能 發(fā)展了這么多年,直到 ChatGPT-3.5 橫空出世,學(xué)術(shù)界才認(rèn)為 AI 步入爆發(fā)期。
01
人工智能的質(zhì)變
很多人會(huì)給出一個(gè)答案:大模型。
可惜的是,這個(gè)答案的定義本身就不夠清晰。什么是「大模型」,沒(méi)有一個(gè)準(zhǔn)確的定義。
我們可以給出一個(gè)模糊的定義:
我們通常所講的大模型,比如 ChatGPT,文心一言,所指的是大型語(yǔ)言模型(LLM,Large Language Model),也就是比較「大」的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。
這個(gè)「大」主要指模型結(jié)構(gòu)容量大,結(jié)構(gòu)中的參數(shù)多,用于預(yù)訓(xùn)練大模型的數(shù)據(jù)量大。
一個(gè)大模型可以分三個(gè)層次:算法(模型結(jié)構(gòu))、模型參數(shù)(數(shù)量和數(shù)值)、訓(xùn)練數(shù)據(jù)。
但是大是一個(gè)相對(duì)概念,并沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義,而我們常說(shuō)的以 ChatGPT 為代表的 LLM,也只是一個(gè) Large Language Model 的模糊定義。
例如下圖中的模型參數(shù),我們可以看到 GPT-3 的模型參數(shù)量已經(jīng)高達(dá)千億,但是 GPT-3 出現(xiàn)時(shí),并沒(méi)有引發(fā)大量的關(guān)注,人們認(rèn)為這不過(guò)是一個(gè)巨量參數(shù)的模型罷了。
模型參數(shù)沒(méi)有策略地變大,其實(shí)沒(méi)有帶來(lái)真正的變化。
直到 GPT-3.5,在模型參數(shù)沒(méi)有顯著變化基礎(chǔ)上。
OpenAI 首次在 GPT-3 之上用人類反饋去微調(diào)模型,使得模型與人類期望相符。
團(tuán)隊(duì)尋找了許多具有較高認(rèn)知水平的標(biāo)注員,來(lái)保證人類反饋的合理性;并且根據(jù)人類標(biāo)注員的反饋訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)模型,基于這個(gè)反饋模型來(lái)讓數(shù)據(jù)的標(biāo)注更加趨近人類的感受。
這里的核心是:
從訓(xùn)練的過(guò)程中,就保證模型正在往滿足人類偏好的方向進(jìn)行演進(jìn)。
這是從構(gòu)建過(guò)程中就產(chǎn)生的本質(zhì)變革,不僅是大量書(shū)籍,也包括大量人類的反饋。
就像一個(gè)學(xué)生,學(xué)習(xí)了大量書(shū)本知識(shí)之后,還需要在社會(huì)中進(jìn)行歷練,才能真正成長(zhǎng)為一個(gè)有價(jià)值的角色。
這是催生 ChatGPT 產(chǎn)生人工智能質(zhì)變的關(guān)鍵鑰匙。
巨量數(shù)據(jù)訓(xùn)練的模型讓 ChatGPT-3.5 產(chǎn)生了足夠的歸因和推理能力,甚至擁有自我決策的能力。
早期參加一個(gè) AI 論壇時(shí),一位業(yè)界大牛舉了很好的例子:
如果你問(wèn) ChatGPT,找出下面的不同的一項(xiàng):狗,卷心菜,恐龍。
它可以給出自己答案。
卷心菜:蔬菜和動(dòng)物的區(qū)別;
恐龍:已滅絕生物的區(qū)別。
這是 AI 的質(zhì)變時(shí)刻,擁有了自己的決策和歸因能力。
探討完 AI 的變革,我們將目光回到汽車上,什么代表著汽車智能的質(zhì)變?
02
汽車智能的模樣
傳統(tǒng)的汽車是基于按鍵進(jìn)行操作的,以人類的思考為核心,擁有外化的執(zhí)行能力,例如按下一個(gè)鍵空調(diào)會(huì)打開(kāi),可以打開(kāi)車窗。
這是以服從和執(zhí)行為基礎(chǔ)的人機(jī)交互方式,并不具備任何的決策和理解能力。
現(xiàn)在大部分智能汽車,依然遵循著這種邏輯,無(wú)非是將實(shí)體按鍵整合到屏幕上,并沒(méi)有產(chǎn)生實(shí)質(zhì)的變化,因?yàn)椴⒉痪邆錄Q策和理解能力。
那汽車智能的質(zhì)變時(shí)刻是什么?
這個(gè)問(wèn)題依然不好回答,我想起 OpenAI 最近剛剛推出的一款智能硬件 AI PIN。
這是由 OpenAI 提供技術(shù)支持的可穿戴設(shè)備,專為與大型語(yǔ)言模型交互而設(shè)計(jì)。
這款設(shè)備允許用戶通過(guò)說(shuō)話,來(lái)?yè)艽螂娫挕l(fā)送短信和搜索信息,還擁有激光顯示屏,直接將手掌變成一個(gè)迷你屏幕。
「AI Pin 為人們提供了一個(gè)機(jī)會(huì),可以隨身攜帶人工智能」
AI PIN 內(nèi)置的模型來(lái)自于 OpenAI,擁有與 ChatGPT 一樣的上下文理解能力,歸因能力。
為了讓人類與科技的關(guān)系真正超越屏幕,我們需要一些完全不同的東西。」Humane 聯(lián)合創(chuàng)始人 Chaudhri 說(shuō)道。
這款新硬件的未來(lái)似乎并不明朗,有質(zhì)疑也有支持,支持者認(rèn)為這就像第一代 Ipod,為智能手機(jī)變革奠定了基礎(chǔ)。
但是由此可見(jiàn),以 AI 為核心的交互模式,不再局限在某個(gè)屏幕上的下一代智能硬件范式,幾乎成為共識(shí)。
硅谷的科技精英們,正在以此為信條,構(gòu)建以 AI 為核心的智能硬件。
如果我們現(xiàn)在將汽車作為一種硬件來(lái)看待,那么實(shí)際上,真正的智能汽車,也應(yīng)該遵循下一代智能硬件范式,以 AI 為核心。
真正理解用戶的意圖,并且通過(guò)用戶的行為推理出合適的操作,滿足用戶的需求。
AI 不是一種達(dá)成某個(gè)功能的手段,而是所有功能的底座。
那么如果以此為界,極越是否真的做了一些思考和變革?
03
極越的智能座艙變革
百度在智能化的長(zhǎng)期投入幾乎都在極越上得到了體現(xiàn),不論是 10 年之前,百度大范圍的科研投入放到自動(dòng)駕駛;9 年前推出的小度;還是 6 年前,百度徹底轉(zhuǎn)型 AI 和人工智能;亦或是 4 年前,他們與國(guó)外同期搭建了學(xué)習(xí)型的文心大模型,以及兩年前文心一格等 AIGC 內(nèi)容生成應(yīng)用的出現(xiàn),直到今年三月「文心一言」的橫空出世。
極越獲得了這些內(nèi)容的深度加持,極越承載的使命是將百度這些能力具象到真實(shí)世界,與用戶進(jìn)行真實(shí)的交互。
所以在車型設(shè)計(jì)之初,極越就確立了以 AI 為核心的理念,也喊出了汽車機(jī)器人的口號(hào)。
不只是屏幕
極越是第一批搭載最新高通 8295 芯片的車型,這是為了保證整個(gè)智能座艙大腦能在足夠的算力上運(yùn)行,也為了保證百度的智能生態(tài)應(yīng)用都能有機(jī)會(huì)在車上運(yùn)行。
這是基礎(chǔ)。
保證了算力基礎(chǔ),再加上百度業(yè)界領(lǐng)先的智能化水平,那就到了執(zhí)行層面,如何讓智能座艙與用戶進(jìn)行更加順暢的交流和響應(yīng)。
極越的邏輯是:既然以 AI 為核心,那么就可以從「自然交流」出發(fā),讓汽車從傳統(tǒng)的生產(chǎn)生活工具。
這里面有個(gè)核心點(diǎn),如何構(gòu)建一個(gè)「合理」的人機(jī)交互系統(tǒng)。
托起這套系統(tǒng)有兩個(gè)點(diǎn),一個(gè)是外化的硬件;另一個(gè)是底層軟件。
硬件好理解,而軟件就比較有有意思,這里講的不是應(yīng)用層,而是算法層,想要人機(jī)達(dá)到「自然交流」,首先要做到「全場(chǎng)景」。
以語(yǔ)言能力舉例,現(xiàn)在座艙語(yǔ)言大部分都是基于在線語(yǔ)言模型,但如果是無(wú)網(wǎng)絡(luò)狀態(tài)下語(yǔ)音的使用會(huì)大打折扣,而極越的本地離線語(yǔ)音模型。
一般來(lái)講,語(yǔ)音識(shí)別系統(tǒng)由幾個(gè)部分組成:將音頻片段(通常為 10 毫秒幀)映射到音素的聲學(xué)模型、將音素連接起來(lái)形成單詞的發(fā)聲模型,以及一個(gè)表達(dá)給定模型的語(yǔ)言模型。
在早期系統(tǒng),這些組件是相對(duì)獨(dú)立優(yōu)化的。
2014 年左右,谷歌研究人員開(kāi)始專注于訓(xùn)練單個(gè)神經(jīng)網(wǎng)絡(luò),將輸入音頻波形直接映射到輸出句子。
通過(guò)在給定一系列音頻特征的情況下生成一系列單詞或字形來(lái)學(xué)習(xí)模型,這種 sequence-to-sequence 的方法促使了 attention-based 和 listen-attend-spell(LAS)模型的誕生。
雖然這些模型在準(zhǔn)確性方面表現(xiàn)出極大的前景,但它們通常會(huì)檢查整個(gè)輸入序列,并且在輸入時(shí)不允許輸出,這是實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄的必要特征。
同時(shí),一種稱為 connectionist temporal classification(CTC)的技術(shù)有助于減少當(dāng)時(shí)識(shí)別系統(tǒng)的延時(shí)問(wèn)題。
這對(duì)于后來(lái)創(chuàng)建 RNN-T 架構(gòu)是一次重要的里程碑,也被看作是 CTC 技術(shù)的一次泛化。
CTC 其全稱為 Connectionist Temporal Classfication,由 Graves 等人于 2006 年提出,用于訓(xùn)練 RNN 以解決時(shí)序可變的序列問(wèn)題,它可用于在線手寫(xiě)識(shí)別或識(shí)別語(yǔ)音音頻中音素等任務(wù)。
發(fā)展到如今,CTC 早已不是新名詞,它在工業(yè)界的應(yīng)用十分成熟,到了 2021 年 例如,在百度早在 2019 年公布的在線語(yǔ)音模型在 CTC 的基礎(chǔ)上還融合了 Attention。
與谷歌關(guān)注移動(dòng)端推斷不同,百度的語(yǔ)音識(shí)別更關(guān)注在線的實(shí)時(shí)推斷,他們提出了一種名為「流式多級(jí)的截?cái)嘧⒁饬Γ⊿MLTA)」模型。
SMLTA 模型最核心的概念是利用 CTC 模型的尖峰對(duì)連續(xù)音頻流做截?cái)啵缓笤诿總€(gè)截?cái)嗟男≌Z(yǔ)音片段上進(jìn)行注意力建模。
這種模型利用了截?cái)喽嗉?jí)注意力對(duì)長(zhǎng)句建模的優(yōu)勢(shì),同時(shí)也解決了 CTC 模型的插入或刪除錯(cuò)誤對(duì)注意力模型的影響。
此外,它采用的是一種局部注意力機(jī)制,因此能做到實(shí)時(shí)在線推斷。
百度的 SMLTA 主要用于在線語(yǔ)音識(shí)別,但通過(guò)對(duì) Deep Peak 2 模型的大量工程優(yōu)化,它也能提供離線語(yǔ)音識(shí)別。
而離線語(yǔ)音模型主要解決了兩個(gè)重要問(wèn)題:「通信網(wǎng)絡(luò)的延遲」和「固有的不可靠性」。
因此,為什么極越 01 可以做語(yǔ)音變道?
核心是,8295 + 免喚醒 + 識(shí)別速度足夠快。
所以極越 01 幾乎取消了所有的實(shí)體按鍵,以語(yǔ)音作為交互方式,就像與副駕的自然交流一樣。
直接通過(guò)語(yǔ)音告訴 Simo 你要做的事情。例如副駕可以說(shuō)需要開(kāi)門,此時(shí)只有前方右邊車門會(huì)被打開(kāi),這在其他車型上是難以看到的。
實(shí)體按鍵帶來(lái)的直接反饋,極越的語(yǔ)音助手真的能夠完全取代嗎?
基于大模型帶來(lái)的強(qiáng)大的語(yǔ)音理解能力,我認(rèn)為極越 01 做到了。
不僅如此,極越拓寬了語(yǔ)音伙伴的陪伴范圍,不僅僅在座艙內(nèi),也在座艙外。
通過(guò)聲紋識(shí)別之后,用戶可以在車外要求打開(kāi)車門,這里面比較有意思的是泊車,極越的能力是:泊車時(shí)如果有行人擋住車輛進(jìn)退路線,視覺(jué)感知到后也會(huì)車外語(yǔ)音和行人說(shuō)「正在泊車,請(qǐng)讓一讓」。
這個(gè)功能很容易被理解成「炫技」,但為了炫技在車上增加幾個(gè)外擴(kuò)揚(yáng)聲器,以及讓工程團(tuán)隊(duì)花絕對(duì)的時(shí)間去開(kāi)發(fā),這在整個(gè)汽車行業(yè)成本控制都趨于極限的條件下,顯然不合理。
那答案就顯而易見(jiàn)了,外部語(yǔ)音提醒在低速泊車場(chǎng)景里有其真實(shí)的安全冗余。
低速泊車場(chǎng)景和高速行車不同,除了目前是兩套技術(shù)棧,還有就是場(chǎng)景不同帶來(lái)的行車策略區(qū)別,低速場(chǎng)景里的參與者和復(fù)雜度往往并不低,對(duì)于感知識(shí)別和車控精度要求甚至更高,特別是盲區(qū)范圍和數(shù)量更多。
而且將語(yǔ)音同智駕做融合要涉及底層開(kāi)發(fā),我們都是知道極越 01 是浩瀚平臺(tái)上的產(chǎn)品,夏一平說(shuō)過(guò),浩瀚為我們提供了一個(gè)強(qiáng)有力的四肢,但極越自己定義了大腦,這個(gè)大腦具體是指,從底層自研的電子電氣架構(gòu)到域控能力一體化,再到先進(jìn)算法所組成的智能化能力。???????????
這套架構(gòu)還進(jìn)一步打通了智駕域和座艙域,實(shí)現(xiàn)了高速和低速泊車環(huán)境下的語(yǔ)音指令功能。?????????????
比如,PPA 開(kāi)啟時(shí)可以通過(guò)語(yǔ)音實(shí)現(xiàn)變道指令,泊車時(shí)可以通過(guò)輔助駕駛的感知系統(tǒng),實(shí)現(xiàn)對(duì)外部行人的識(shí)別。???????
簡(jiǎn)單說(shuō)就是,智駕域要給智艙域控制器發(fā)一個(gè)信號(hào),說(shuō)有個(gè)人在泊車行車路線上,讓系統(tǒng)通過(guò)語(yǔ)音去跟這個(gè)人交互,說(shuō)讓他讓一讓。
此時(shí),這個(gè)人讓行之后繼續(xù)給車輛 AVP以及環(huán)視感知指令去做泊車。
其實(shí)就一句話:實(shí)現(xiàn)「正在泊車,請(qǐng)讓一讓」這句話,是需要很多工程能力的,同時(shí)它是一套安全策略。
極越后期還會(huì) OTA 更多與車外交流的能力。
當(dāng)產(chǎn)品的核心不再是簡(jiǎn)單加上一些屏幕,減少一些按鍵,而是對(duì)整個(gè)交互方式進(jìn)行重新思考時(shí),才會(huì)有新的座艙體驗(yàn)。
04
智能化的想象
極越邁出了以 AI 為核心的第一步,那么未來(lái)還會(huì)有哪些可能的變革?
目前智能座艙還在一種無(wú)序的狀態(tài),每個(gè)廠商都有自己的理解,每個(gè)廠商都有著一個(gè)自己的產(chǎn)品形態(tài),實(shí)質(zhì)是沒(méi)有構(gòu)建出一種新的產(chǎn)品體系,像是大爆炸前的混沌宇宙。
如果我們希望我們的智能化伙伴能夠真正理解我們的需求,那么就需要更多與它們交流的時(shí)間和場(chǎng)合;就像我們希望交到一個(gè)真實(shí)的朋友,那么我們需要更多時(shí)間與他相處,更多真實(shí)情感的交流。
這種全天候的陪伴,極越開(kāi)始做了。
通過(guò)小度上車,SIMO 可以與小度共享同一個(gè)主人,共享主人的偏好,更能理解用戶的需求。
打通 SIMO 與智能家居的的互聯(lián)互通。
例如:停好車之后自動(dòng)打開(kāi)家里的空調(diào),上電梯之后,車輛自動(dòng)開(kāi)到電梯口來(lái)接你,通過(guò)小度與家里人直接對(duì)話。
這些普通的新勢(shì)力是無(wú)法完成的,整個(gè)家居生態(tài)它們并不滿足,目前看華為、小米、極越更加完整,也擁有更多未來(lái)的拓展的可能性。
什么是智能汽車的未來(lái)?
最近人工智能圈有一個(gè)熱詞:具身智能。
有別于傳統(tǒng)的人工智能概念(如 ChatGPT),強(qiáng)調(diào)具有真實(shí)世界的物理實(shí)體,但也有別于傳統(tǒng)機(jī)器人行業(yè),強(qiáng)調(diào)具有足夠的自我決策和歸因能力。
當(dāng)我看到極越 2022 年將汽車機(jī)器人作為主要宣傳方向時(shí),我知道極越不將自己局限在一個(gè)汽車概念上,而是擁有足夠的智能化能力,只是汽車作為物理形態(tài)的一種產(chǎn)品。
這與 2023 剛流行的具身智能的概念不謀而合,是一種全新的產(chǎn)品定義方式。
我們可以期待一下,跳脫出汽車概念的極越,在人工智能變革的當(dāng)下,還能帶給我們哪些驚喜?
-
智能化
+關(guān)注
關(guān)注
15文章
4935瀏覽量
55601 -
人工智能
+關(guān)注
關(guān)注
1793文章
47590瀏覽量
239486 -
智能汽車
+關(guān)注
關(guān)注
30文章
2882瀏覽量
107438
原文標(biāo)題:智能化的想象
文章出處:【微信號(hào):nev360,微信公眾號(hào):焉知新能源汽車】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論