在蘋果宣布停止公布手機銷量,以富士康和和碩為代表的供應商下調新款iPhone銷售預期,市場一致看衰的背景下,蘋果用什么來提振投資人的信心呢?
無人駕駛被蘋果拿出來說事了。也是在上周,有媒體報道,庫克證實蘋果正在研發用于無人駕駛汽車的自主系統,這也是庫克為數不多的第二次公開披露蘋果關于無人駕駛方面的計劃和進展?;蛟S蘋果要為它的無人駕駛項目提速了。
蘋果無人駕駛研發成果秘而不宣
相比Google、特斯拉這類競爭者,蘋果進入無人駕駛的賽道稍晚,2014年才開始組建團隊,以“Project Titan”作為內部代號。進入的時間晚,并不意味著蘋果對無人駕駛項目不重視,當庫克在2017年6月首次對外公開其無人車戰略的時候,將無人駕駛技術拔到“所有AI項目之母”的高度。
于是蘋果挖來了特斯拉負責整車研發和制造的高級副總裁DougField、大眾汽車集團的首席數字官JohannJungwirth、福特車身結構和沖壓專家AindreaCampbell、保時捷919技術總監AlexanderHitzinger、特斯拉負責工程研發的副總裁ChrisPorritt……
今年7月,美國聯邦調查局指控蘋果前員工竊取商業機密的訴訟文件曝光了蘋果“Titan”項目的團隊規模——5000人。
一開始,蘋果就把“盤子”鋪的很大??墒翘O果除了逐漸擴大自己的測試車隊外(截止今年9月已達70輛,這個規模僅次于通用汽車的Cruise和Waymo),向外公布的研究成果對于無人駕駛技術并沒有突破性的指引。
比如類似于飛機的空中加油機一樣,讓汽車在行駛時通過“連接臂”共享電池系統;讓無人駕駛汽車與iPhone、iPad或MacBook等蘋果設備同步,當汽車遇到緊急情況需要人類接管時,發送警報提醒正在使用這些設備的用戶及時接管汽車。
根據自動駕駛初創公司Voyage聯合創始人MacCallister Higgins在網絡上放出一段蘋果第三代自動駕駛測試車的視頻來看,相比前兩代測試車,蘋果也只是對毫米波雷達數量進行調整,對傳感器列陣進行優化。
此外還有一些天馬行空的想法:怎么搞一個靜音車門,沒有方向盤和油門的情況內飾怎么設計,怎么把AR/VR設備放到車里,怎么應用球形輪胎、甚至還準備重新設計一款更美觀的激光雷達……
迄今,蘋果無人駕駛技術展現給大眾的印象是,它的研發更多停留在硬件和設計層面,蘋果最為擅長的軟件開發、生態構建等還沒有任何風聲透出。值得玩味的是,蘋果在2015年買下了3個與車相關的頂級域名:apple.car,apple.cars和apple.auto,但是至今還未啟用。
用CarPlay接管無人車?蘋果沒那么天真
相信以蘋果公司的高度,它不會沒有認識到一套充滿智慧的車載系統對于無人駕駛汽車的重要性。
2013年蘋果確定進軍汽車領域時就制定了“iOS in the Car”計劃,并在次年的日內瓦車展上展出了合作伙伴搭載的CarPlay——一套可以將用戶的iOS設備、iOS使用體驗與汽車儀表盤進行結合的車載系統。蘋果能用CarPlay來接管未來的無人車嗎?從目前來看,CarPlay還不具備這樣的能力。
用戶對CarPlay的槽點實在太多。
“支持的APP太少了,最基礎的專業導航都不支持。每當我被迫用起蘋果坑爹的自帶導航時,就無比懷念百度和高德。”
“CarPlay與汽車連接使用時,經常受手機信號的影響。手機信號不好或者行車抖動會導致鏈接斷開,斷開后正在使用的導航、音樂之類的應用也馬上關閉,好幾次差點出事!”
“蘋果系統一升級,CarPlay系統就變得卡一點,反應也越來越遲鈍,點個圖標也要等幾秒?!?/p>
“升級iOS 12后,數據線連接使用CarPlay時,另外USB接口的U盤音樂不能播放,只能播放收音機與蘋果手機自帶的或手機app的音樂。”
“一連CarPlay,車載藍牙就失效,這個Bug好久了也沒見蘋果修復?!?/p>
……
當然最讓人無法接受的是,大量用戶反映連接CarPlay后Siri無法使用,而在蘋果的規劃中,Siri是CarPlay的核心——讓司機在眼睛不離開道路的情況下通過語音完成操作。
CarPlay這么難用,Google的Android Auto,福特與微軟合作開發的SYNC也好不哪去。系統崩潰、觸屏難用、反應速度慢這些問題也都在它們身上出現過,有些至今也沒解決。至于那些基于Android系統開發出來的車載系統,其穩定性和人機交互邏輯的槽點就更多了。
“小艾你好、小度你好、斑馬你好、Nomi你好……誰家的車多了,開車還得記清那些開門暗號。”無人駕駛賽道玩家太多,車載系統的研發,究其源頭同質化嚴重,對于普通用戶來說,要想分清這些語言交互助手和它們所匹配的車型還很有些難度。
很顯然,無論是iOS還是Android都是基于手機的使用場景設計開發而來的,而汽車的使用場景和人機交互邏輯與手機完全不同,將iOS和Android稍稍修改就搬進車內注定是不會成功的。從庫克的這次表態來看,CarPlay可能成為蘋果無人車自主系統的一個過渡產品。
自主系統是蘋果布局無人駕駛的第一步
對于無人駕駛自主系統的研發,蘋果無疑是有優勢的,在蘋果龐大的商業帝國中,蘋果為它的Mac電腦開發了Mac OS系統;為iPhone開發了iOS系統;甚至連Apple Watch都有屬于自己的Watch OS系統。那么對于無人車,蘋果為什么不從底層開始,設計一套完全針對汽車駕駛場景的“Car OS”呢?
正如十年前手機行業面臨的變革一樣,無人駕駛技術也將對汽車行業產生翻天覆地的變化。在變化來臨之前,是先做車(硬件)還是先做系統(軟件)呢?
類似于“先有雞?還是先有蛋?”這個經典的哲學問題,蘋果用iPhone的經驗進行作答——用軟件定義硬件、用新技術定義舊行業。
自主系統是蘋果布局無人駕駛的第一步,然后就像用iPhone重新定義手機一樣,用AI重新定義汽車。未來,汽車除了被用于出行之外,還將會是移動的空間,移動的計算終端,移動的能源終端,移動的攝像機,移動的溫度計,移動的機器人……借鑒著當前消費電子領域的成功,用一套爛熟于心的流程,建立一個“軟件+硬件+服務”的全新汽車消費生態。
就像iOS(軟件)之于iPhone(硬件),在自動駕駛無人車上,蘋果在自主系統(軟件)之后,它的無人車(硬件)在哪?
其實蘋果一直都在尋找制造無人車的合適機會。由于蘋果在汽車研發上缺乏經驗,在保證現有業務體系不受影響的前提下,不可能像特斯拉那樣的初創公司一開始就“赤膊上陣”,蘋果走的是一條委婉的“合作造車”路線。
合作伙伴的選擇一度讓蘋果頭痛。早期蘋果選擇的是加拿大的麥格納公司,之后則是寶馬和奔馳,甚至還與日本日產、中國比亞迪和英國的邁凱輪有過接觸,但都沒有達成具體的合作計劃,其中的主要原因就是蘋果太過強勢,它想要主導權,但車廠不愿將自己賴以安身立命的造車數據交給蘋果。
直到今年5月,蘋果才與大眾達成合作協議,共同開發自動駕駛的無人車。不過項目是以對大眾T6廂式車的改造開始,蘋果重點對儀表盤和座椅等部分進行改造,還計劃會加入各種傳感器和電子設備,底盤、車輪等動力機械部分基本沒動。
這或許只是蘋果與大眾進行深度合作,開發具有前瞻性質的自動駕駛無人車之前的一次試探與磨合。根據蘋果的商業模式,它無論如何都不會放棄對硬件領域的滲透,無人車也是如此。
只憑一個攝像頭 3D目標檢測成績也能媲美激光雷達
靠一個攝像頭拍下的圖像做3D目標檢測,究竟有多難?目前最先進系統的成績也不及用激光雷達做出來的1/10。
一份來自劍橋的研究,用單攝像頭的數據做出了媲美激光雷達的成績。
還有好事網友在Twitter上驚呼:
這個能不能解決特斯拉不用激光雷達的問題?馬斯克你看見了沒?
靠“直覺”判斷
為何人單眼能做到3D識別,而相機卻做不到?
因為直覺。
人能夠根據遠小近大的透視關系,得出物體的大小和相對位置關系。
而機器識別拍攝的2D照片,是3D圖形在平面上的投影,已經失去了景深信息。
為了識別物體遠近,無人車需要安裝激光雷達,通過回波獲得物體的距離信息。這一點是只能獲得2D信息的攝像頭難以做到的。
為了讓攝像頭也有3D世界的推理能力,這篇論文提出了一種“正投影特征轉換”(OFT)算法。
作者把這種算法和端到端的深度學習架構結合起來,在KITTI 3D目標檢測任務上實現了領先的成績。
這套算法包括5個部分:
前端ResNet特征提取器,用于從輸入圖像中提取多尺度特征圖。
正交特征變換,將每個尺度的基于圖像的特征圖變換為正投影鳥瞰圖表示。
自上而下的網絡,由一系列ResNet殘余單元組成,以一種對圖像中觀察到的觀察效果不變的方式處理鳥瞰圖特征圖。
一組輸出頭,為每個物體類和地平面上的每個位置生成置信分數、位置偏移、維度偏移和方向向量等數據。
5. 非最大抑制和解碼階段,識別置信圖中的峰值并生成離散邊界框預測。
這種方法通過將基于圖像的特征映射到一個正交3D空間中,打破了圖像的束縛。在這個3D空間里,各個物體比例一致、距離也是有意義的。
效果遠超Mono3D
作者用自動駕駛數據集KITTI中3712張訓練圖像,3769張圖像對訓練后的神經網絡進行檢測。并使用裁剪、縮放和水平翻轉等操作,來增加圖像數據集的樣本數量。
作者提出了根據KITTI 3D物體檢測基準評估兩個任務的方法:最終要求每個預測的3D邊界框應與相應實際物體邊框相交,在汽車情況下至少為70%,對于行人和騎自行車者應為50%。
與前人的Mono3D方法對比,OFT在鳥瞰圖平均精確度、3D物體邊界識別上各項測試成績上均優于對手。
尤其在探測遠處物體時要遠超Mono3D,遠處可識別出的汽車數量更多。甚至在嚴重遮擋、截斷的情況下仍能正確識別出物體。在某些場景下甚至達到了3DOP系統的水平。
不僅在遠距離上,正投影特征轉換(OFT-Net)在對不同距離物體進行評估時都都優于Mono3D。
但是與Mono3D相比,這套系統性能也明顯降低得更慢,作者認為是由于系統考慮遠離相機的物體造成的。
在正交鳥瞰圖空間中的推理顯著提高了性能。為了驗證這一說法,論文中還進行了一項研究:逐步從自上而下的網絡中刪除圖層。
下圖顯示了兩種不同體系結構的平均精度與參數總數的關系圖。
趨勢很明顯,在自上而下網絡中刪除圖層會顯著降低性能。
這種性能下降的一部分原因可能是,減少自上而下網絡的規模會降低網絡的整體深度,從而降低其代表性能力。
從圖中可以看出,采用具有大型自上而下網絡的淺前端(ResNet-18),可以實現比沒有任何自上而下層的更深層網絡(ResNet-34)更好的性能,盡管有兩種架構具有大致相同數量的參數。(量子位)
資源
論文:
Orthographic Feature Transform for Monocular 3D Object Detection
https://arxiv.org/abs/1811.08188
作者表示等論文正式發表后,就放出預訓練模型和完整的源代碼。
評論