售價1500美元的Quest Pro是Meta高端設備系列的第一款產品。它搭載了一系列的創新功能,例如可以提供全彩混合現實體驗的高分辨率傳感器,Pancake光學模組,全新時尚的設計,以及眼動追蹤和面部追蹤等等。
日前,近眼顯示技術專家卡爾·古塔格(Karl Guttag)以“Unbelievably Bad AR Passthrough(糟糕透頂的AR透視效果)”為標題,撰文分享了他對Quest Pro全彩透視效果的分析。
下面是具體的整理:
介紹
為了演示Meta Quest Pro(MQP)顯示器和光學系統的不同方面,近一個多月來我一直在拍攝照片和制作短視頻剪輯。這有點像剝洋蔥皮,每檢測到一個問題就進行實驗,并拍攝更多的照片和視頻。
首先是結論:就Meta聲稱MQP服務于商業和工作應用的人類視覺因素而言,MQP糟糕透頂了。在這次的系列博文中,我將利用我在計算機圖形、顯示器和人機界面方面的40多年經驗,嘗試用圖片和測量來量化MQP的眾多問題。
我想知道的是,當他們把為電子游戲設計的產品稱為“商業”或“企業”設備時,他們到底是想糊弄誰。Magic Leap的Magic Leap 1是這樣,后面的MagicLeap 2也是這樣。這就像市場營銷人員跟你說,“對于這個價格,我們不能把它作為一種游戲系統進行兜售,它必須是一種企業產品。”
除了特定VR愛好者會對擁有多個“大屏幕”,多個顯示屏感到驚訝之外,大多數人都指出將MPQ用于商業應用是十分荒謬的。我將在后續的博文種展示這種非常低分辨率的顯示器有多糟糕,像素感重,視覺輻輳調節沖突,不可接受的閃爍,在商業應用中表現不佳等等。
從AR透視開始
就商業用例而言,MQP在很多方面都非常糟糕,以至于很難確定從哪里開始講起。由于本博客專注于增強現實,所以第一篇博文將專注于AR/MR透視問題,特別是Meta在Connect 2022中的言論:
高分辨率前置攝像頭捕獲的像素數量是Meta Quest 2的四倍,并且使得Meta Quest Pro成為我們首款全彩混合現實設備。請想象一下物理世界和數字世界終于能夠無縫交互的可能性。
我不確定Meta說的“無縫”是指什么,但我不認為MQP的AR透視效果接近字典對“無縫”一詞的定義:沒有尷尬的過渡、中斷或差異跡象。
已經有一系列的評論主觀地認為MQP AR透視的質量糟糕,而本文將嘗試進行量化。
我同時應該補充一點,人類的身體構造和視覺系統更善于低頭看手機,而不是抬頭看低分辨率的VR屏幕。
關于圖片和視頻
所有照片和視頻都是透過Quest Pro的光學系統拍攝,并使用佳能R5 8192 x 5464像素相機拍攝。這款相機配有約16mm的鏡頭,FOV大致為水平106度,垂直約81度。這意味著每英寸大約80個像素,或者每個Meta Quest像素等于大約4個攝像頭像素。佳能R5的分辨率接近于出色的人類視覺。在大多數情況下,我會使用經過裁剪的全分辨率圖像進行討論,而我同時提供了全分辨率的完整圖像。要以全分辨率查看,你需要單擊裁剪圖像。
在拍攝Through Lens鏡后視頻時,我總是拍攝左眼,因為它更容易適配相機。所以在下面討論的所有比較中都是使用左眼視頻。
你會在透過MQP拍攝的所有照片中看到(分散注意力的)對角紗窗效果,而這同樣是肉眼可見。如下面討論,MQP中的顯示器旋轉,所以紗窗效果同樣會旋轉。
盡管相機可以產生8K視頻,但視頻是以4K(3860 x 2160)拍攝,由相機從更高分辨率的相機傳感器縮小。我發現8K和4K視頻的差異微乎其微,所以我根據情況以30fps和60fps的速度拍攝4K視頻。MP4視頻文件包含在內(而不是為YouTube重新壓縮)。視頻剪輯通常很短,可以通過單擊它們來播放。我建議使用你的播放器進行觀看。
關于視頻閃爍的說明
你會在視頻中看到閃爍和滾動的亮度帶。當前的應用沒有使用大肆宣傳的陣列調光。但Meta發布的當前應用將LED組織成一排,以提供極短占空比的滾動照明。這將導致靜態圖片出現條紋偽影和視頻出現滾動拖影(部分拖影是由相機的滾動快門造成)。對于靜態圖片,為了平均化條紋偽影,我是以低速進行拍攝,通常為1/30秒或更慢的快門速度。
盡管是這樣,MQP依然存在大量的閃爍。出于某種奇怪的原因,Meta Workplace應用將快門頻率降低到70Hz左右,這對于寬FOV設備而言太慢(外圍視覺對閃爍非常敏感),再加上低占空比,所以存在大量對人類有害的低頻閃爍。大多數應用程序使用90Hz,這對于寬FOV來說依然有點慢,但稍微好一點。對于特定房間,根據照明情況,我注意到房間照明和頭顯之間的差頻。我計劃寫一整篇關于MQP閃爍問題的博文。
MQP的旋轉顯示器和Pancake透鏡的數字失真校正
上圖是從Meta Quest Developer HUB(MQDH)應用程序對MQP中兩個顯示器的靜態捕獲。這張圖片混合了VR內容和AR透視。由于MQP中的物理顯示器反向旋轉約21度,所以圖像旋轉。根據Brad on SadlyIsBradley頻道主持人布拉德·林奇(Brad Lynch)的說法,旋轉可能有兩個原因:
A)在將方形(帶切角)顯示器刻成稍微圓形的FOV時,為相同尺寸的顯示器提供更大的垂直FOV;
B)由于使用Pancake光學元件,顯示器更接近用戶的面部,所以要空出一個三角形的鼻周區域。
除了旋轉之外,圖像同時發生了桶形失真(四邊都向外彎曲)。桶形失真用于通過MQP的Pancake光學器件預校正顯著的枕形失真。這確實意味著外圍像素被光學拉伸,所以分辨率較低。
因為用于AR透視的攝像頭沒有旋轉,所以每個視頻幀都需要數字旋轉。我的第一個想法是,旋轉本身會損害分辨率。盡管如此,由于它只是透鏡校正之上的眾多變換之一,并且如果所有變換都在一次透視中完成(我不確定,具體可能會因應用而異),它可能不會進一步降低圖像質量。
下面是左眼的MQDH視頻捕獲,透過光學元件拍攝的Through Lens鏡后圖片,以及相機視圖。相機和頭顯分別安裝在三腳架上,可以在有頭顯和無頭顯的情況下從同一地點拍攝照片。如果你看看捕獲圖像,很明顯,它正在對顯示器的透鏡失真進行顯著的預校正。為了與其他兩幅圖像大致匹配,HQDH視頻捕獲圖像經過旋轉和縮放,但未對桶形失真進行校正。從照片書柜左側的白色墻壁和Through Lens鏡后圖像中可以看到,外部像素因光學失真而顯著拉伸了2倍以上(并因預補償而被壓縮)。
MQDH視頻捕獲(左)、Through Lens鏡后圖片(中)和相機(右)(比例為16%)
以下是從圖像中心,并按與之前相同的順序所拍攝的全分辨率裁剪圖像。
MQDH視頻捕獲(旋轉/放大)、Through Lens鏡后圖片(中)和相機(裁剪、全分辨率)
以下是相應的全尺寸圖像(每幅圖像約為4500萬像素)。
MQDH視頻捕獲(旋轉/放大)、Through Lens鏡后圖片(中)和相機的直接視圖(右)
AR透視的效果幾乎跟盲眼一樣,而且色彩糟糕
上圖是通過MQP光學系統拍攝的Snellen視力表(左側)和相機拍攝照片(右側)。為匹配標準視力測試中距頭顯較短的距離,這個圖表的尺寸進行了縮放。
在美國,不能閱讀最上面一行的“E”表示“失明”。MQP似乎介于20/200(失明)和10/200(視力受損)之間。色彩是另一個問題,它可能會從不飽和/丟失到過度飽和。在相機視圖中,橙色過飽和的木材接近于肉眼所見。
在另一個測試中,我使用了一張1962年迪斯尼樂園的大型地圖,將顏色與不同層次的細節打印相結合。以下是通過MQP光學元件拍攝的Through Lens鏡后圖片(左側)和相機照片(中心)。后者的拍攝角度大致相同,略微縮小以匹配MQP圖像(約70像素/度)。相機圖像縮放以大致匹配MQP的細節級別,然后放大到與其他兩幅圖像相同的大小(右)。請注意,直接使用相機拍攝的未縮放圖像和通過MQP拍攝的圖像尺寸非常接近。
為了簡單起見,我在下面列出了每個圖像的中心區域。我在最右邊的Quest 2的Through Lens鏡后裁剪圖片。
這個測試得出的結果與Snellen視力表大致相同。佩戴Meta Quest Pro時,最佳中心視力約為良好人類視力的1/10。
自底向上的計算
MQP采用“自底向上”的分辨率,單眼1280 x 1024像素黑白追蹤攝像頭,在裁剪、旋轉和桶形變形的過程中重新采樣,從而生成要顯示的圖像。重采樣過程應該會產生大約500 x 500像素的圖像,或者單眼大約85度,每度大約6個像素。
下面是一個20秒的4K視頻,通過左眼光學系統拍攝,使用的是16mm鏡頭的佳能R5相機。所述相機可以捕獲幾乎整個水平FOV和垂直FOV的75%。PC的數字計數器每秒僅更新約10次,以在鏡頭和視頻捕獲之間提供大致同步(稍后顯示)。相比之下,鐘擺給出了恒定的模擬計時。
極低動態范圍和高失真
啟用MQP透視時的動態范圍(從暗到亮)只能用可憐來形容。使用對紅外敏感的追蹤攝像頭意味著任何明亮或發光的物體都會發出白光。沒有充分照明的元素都會產生非常高的噪點。下面的視頻說明了動態范圍的問題,以及啟用AR透視時的極端失真和顏色問題。盡管近距離物體更糟糕,但遠距離物體同樣會發生奇怪的扭曲。MQP將糟糕的AR透視帶出了新的下限。
4K Through Lens鏡后視頻
下一個短視頻片段顯示了查看紙質文檔和其他問題,例如照明。PC的圖像可以在KGOnTech的測試模式下獲得。
這個4K視頻演示了查看紙質文檔的問題
30Hz幀速率和顏色滯后
下面的視頻顯示了PC的計時器和揮舞著迷你Snellen視力表的鐘擺米奇。PC的計時器每秒更新6.6次,揮舞的米奇提供連續的模擬運動。結合大致時間戳的大鐘和揮舞米奇,我可以將Through Lens鏡后視圖和MQDH的視頻捕獲同步到同一幀。為了防止MQP攝像頭泛白,PC必須設置為接近最低亮度,這樣我就可以讀取計時器。
4K 60Hz幀速率視頻
捕獲與上述Through Lens鏡后視頻相同的視頻序列
我可以用很多形容詞來描述MQP的透視圖像質量,但Meta所說的“無縫”不是其中之一。首先要注意的是失真,尤其是圍繞著米老鼠和擺動視力表。你同時可以看到顏色是如何非常接近并滯后于運動。
盡管MQDH視頻捕獲的顏色看起來相當準確,但通過Through Lens鏡后視頻的顏色過飽和。對于透視模式,這種過度飽現象可憑肉眼感知。當使用VR時,顏色看起來相當準確,所以透視模式的顏色質量之差有點令人困惑。
下面放大的靜止幀將Through Lens鏡后視圖與直接視頻捕獲進行比較。為了進行這個比較,MQDH視頻捕獲經過旋轉和縮放(在以后的捕獲中,它不會被旋轉)。注意缺少的顏色間隙以及圖像中的失真量。
左為Through Lens鏡后視圖,右為視頻饋送(經過旋轉和縮放)
各種幀速率不同步
盡管幀速率約為90Hz,而且Meta Developer應用的視頻捕獲率同樣約為90Hz,但速率略有不同,導致大約每捕獲第三幀,就會在捕獲過程中出現撕裂(見下圖)。
另外,視頻捕獲中的撕裂無法在Through Lens鏡后視圖中看到。上面捕獲的幀避免了這種撕裂幀。裁剪幀顯示了其中一個撕裂。這表明視頻捕獲與視頻源到達顯示器不同步。視頻以比視頻捕獲更高的幀速率捕獲,因為視頻捕獲中存在重復的幀。
捕獲的視頻源不是發送到顯示器的內容
最初,我假設捕獲的MQDH是發送給顯示器,但事實并非如此。捕獲的視頻是90Hz,但捕獲幀以大約30Hz的頻率變化。然而,在60Hz的Through Lens鏡后視頻(下面的頂行),每一幀都是唯一,但整個拍攝對象僅以30Hz的頻率移動。由于相機的頻率約為60Hz,MQDH捕獲頻率約為90Hz,因此每三個捕獲幀大約有兩個相機幀。
如果你仔細觀察Through Lens鏡后視頻的幀序列,你應該注意到在每一對由紅線分隔的幀中,米奇都不會移動。相反,顏色會移動,移動的內容會發生不同的變形。該對中的第一幀與MQDH捕獲中的一幀完全匹配,但第二幀是唯一的。我沒有現成的90Hz幀速率相機,但我懷疑當顯示器以90Hz運行時,圖像會以90Hz的頻率變化,而60Hz的相機會在三幀之間獲得兩幀。
運動到光子延遲
我曾看到有評論家指出,結合了雙眼的視頻饋送看起來比肉眼所見要好。遺憾的是,由于有bug的軟件和MQDH應用中的無用消息,我無法通過MQDH捕獲更高質量的視頻(只有分辨率較低的30fps頭顯錄制和投屏)。
看起來的情況是,所捕獲到的內容與所顯示的內容不同且更好。我懷疑發送到眼睛顯示的處理優先于運動到光子延遲,而不是絕對質量。他們希望盡可能快地向眼睛提供新信息,而視頻捕獲可能會優先考慮圖像質量而不是延遲。
我同時做了一個小實驗:在光線昏暗的房間里,我讓相機閃光燈熄滅,用一個傳感器觸發示波器的捕獲,用第二個光傳感器捕獲顯示響應,用光傳感器測量延遲。閃光燈通常需要四個90Hz以上的幀時間(約40到50ms)才能顯示在圖像。在下面的捕獲中,你可能會注意到響應(黃色)是三個階梯式的低占空比脈沖。MQP的照明LED僅在極短的時間內點亮。不同排的LED以滾動順序發光,從而形成階梯圖案。在未來的博文中,我計劃詳細介紹MQP的LED陣列照明。與視頻捕獲一致,閃光燈以90Hz或30Hz顯示三幀。
科研項目出錯還是營銷決策?
我的第一反應是,MQP的透視功能最初只是為了給游戲玩家提供一種優于Meta Quest 2的體驗,幫助他們在定義邊界時看清周圍環境。但后來Meta的高層指出,它需要成為一種“混合現實”設備。同時,具體的實現表明這是“一個逃離實驗室的實驗”。或許真正的答案是,MQP的透視功能有點二者兼而有之,研究人員希望通過展示技術并以更大規模實驗技術,而公司則希望將產品營銷為一種混合現實設備而不僅僅只是虛擬現實。
靈感來自魯布·戈德堡(Rube Golberg)的全彩透視
Meta Quest Pro的AR透視靈感似乎來自魯布·戈德堡。這個人以描繪過于復雜的機器而聞名。
根據布拉德·林奇的說法,Quest Pro的AR透視使用兩臺低分辨率IR追蹤/SLAM攝像頭(標稱分辨率為1280×1024)來為每只眼睛的顯示器提供亮度信息,并結合一臺1600萬像素的彩色攝像頭為每幅圖像上色。但正如接下來的說明,實際的分辨率要差得多。
理智與瘋狂:三維空間優先于圖像質量
Meta的工程師們必須明白,將一臺彩色攝像頭與兩臺追蹤優化攝像頭相結合會嚴重影響圖像質量。正如我常說的一樣,“當聰明人做出看起來很愚蠢的事情時,那是因為他們試圖避免出現他們覺得會更糟糕的事情。”在這種情況下,他們愿意犧牲圖像質量,試圖讓現實世界中的物體位置與虛擬物體的出現位置一致。在某種程度上,他們已經實現了這一目標。但圖像質量和失真程度之差,尤其是“近距離對象”(包括用戶的手),這似乎是一場代價高昂的勝利。
林奇的報道指出,Meta Quest 3將擁有兩個高分辨率彩色攝像頭,每只眼睛一個,而不是像MQP那樣共享一個彩色攝像頭。這將提供更好的圖像質量并減少一定的問題。然而,當他們試圖基于實時追蹤和深度感測攝像頭信息映射真實世界的相機圖像時,失真依然可能存在。另外,根據林奇的說法,AR透視過程非常耗費處理器,功耗大幅增加。所以我們不禁懷疑,要獲得出色的圖像質量,這到底需要進行多少處理。
AR透視問題(MQP之外)
在2022年6月,我與林奇討論了AR透視(帶攝像頭的VR)的普遍優點和缺點。下面概述了視頻中解釋的眾多要點。我不會再次重復,你可以參考這個視頻。
AR透視的優點:
潛在更好的虛擬圖像質量
硬邊緣遮擋變得輕松
更簡單和成本更低的光學元件和透鏡
虛擬圖像不必與環境光線競爭,并且可以節省能耗
AR透視的缺點:
真實世界的固定焦點
亮度動態范圍遠低于現實世界
分辨率低于現實世界
運動到光子延遲
攝像頭到眼睛的不完美對準
外圍視覺和環境光問題
這可能是危險的“VR到ER(搶救)”
上面沒有提到但我有在視頻中討論過的一個主要問題是,AR透視通常是不安全的,因為從撞到物體到被設備和車輛撞到,它可以通過各種方式掩蓋現實世界中的危險。林奇指出,在VR社區,這被稱為“VR到ER”。
MQP的透視模式僅緩解了一定的VR視覺安全問題,以下是剩余的問題:
頭顯依然會遮擋大量視線
VR內容完全阻擋了現實世界
動態范圍如此之差,以至于現實世界中的明亮對象會完全遮蔽
現實世界中的分辨率很差(這是本文的主要主題)
透視視頻可能高度失真
Meta的律師知道“VR到ER”的問題,因為設備告訴你留在沒有障礙物的室內,并讓你劃定電子邊界。但實際上,如果你畫了一個足夠小的邊界來保護你,你會經常被視覺邊界警告所困擾。要避免無需經常煩惱,你需要完全清空房間。盡管如此,當你在虛擬世界中過快伸手觸摸什么時,你依然有可能撞到物理對象。
這只是明顯的安全問題,其他還有人為因素安全問題,并在長期“接觸”所述產品時造成問題,包括視覺輻輳調節沖突和閃爍(這似乎沒有人關心,我會在未來的文章中更詳細介紹)。
結論:遠未成熟。為什么?
MQP的透視模式雖然比Meta Quest 2有了很大的改進,但離用作AR/MR設備尚十分遙遠。我對Lynx的AR透視有看法,但它離MQP的翻車質量還很遠。MQP的透視模式勉強可用于在現實世界中查找大型對象并為VR應用設置邊界。
它在AR透視方面非常糟糕,這讓我懷疑Meta為什么聲稱它是一款混合現實設備。有人猜測,這是為了在蘋果MR頭顯之前聲稱自己率先擁有MR設備。
即便Meta大大提高了透視模式的圖像質量,但如果沒有VR的典型限制(沒有障礙物的安全室內),它是否能安全使用值得懷疑。Meta在這一領域已經投資了300多億美元,而MQP是標價1500美元的“專業”設備所能產生的結果。
從人類視覺因素的角度來看,Meta Quest Pro存在很多問題。他們甚至能夠把閃爍之類的簡單答式弄錯,更不用說更難解決的問題了,比如視覺輻輳調節沖突(VAC)。
可以說,MQP強化了我在林奇頻道中討論的AR透視的諸多缺點。
審核編輯:劉清
-
顯示器
+關注
關注
21文章
4990瀏覽量
140138 -
光學系統
+關注
關注
4文章
243瀏覽量
18338 -
AMQP
+關注
關注
0文章
7瀏覽量
2564
原文標題:AR技術專家Karl Guttag分享:Quest Pro全彩透視效果分析
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論