在硬件技術(shù)如此迅速的進步之后,元宇宙的技術(shù)路線又將朝何方發(fā)展呢?
編者按:本文來自微信公眾號PPIO(ID:PPIO_Storage),創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
(相關(guān)資料圖)
在過去的一系列文章中,我一直將元宇宙視為我們這個時代的"登月工程"。為了實現(xiàn)真正的全身心沉浸式體驗,未來必須有多項關(guān)鍵技術(shù)取得突破。然而就在今天,備受矚目的蘋果MR設(shè)備Apple Vision Pro,在蘋果WWDC2023的舞臺上綻放光芒。其單眼4K分辨率,2300萬像素的視覺顯示效果,搭載強大的M2主芯片,配備眼動追蹤等尖端技術(shù),以及令人驚嘆的12ms的M2P外顯時延技術(shù)。這些創(chuàng)新的技術(shù)實現(xiàn),都在預(yù)期之內(nèi)。然而,最令人興奮的是,遠超出了我的預(yù)期,沒想到來得那么快。人類在這場偉大的"元宇宙登月工程"中,邁出了一大步。那么,在硬件技術(shù)如此迅速的進步之后,元宇宙的技術(shù)路線又將朝何方發(fā)展呢?接下來,我將分享一些個人的思考。
01介紹Apple Vision Pro在6月6日凌晨的蘋果WWDC大會上,第一次正式發(fā)布了蘋果的MR設(shè)備,Apple Vision Pro,將于明年早些時候上市;
這次Apple Vision Pro定位是進入空間計算時代,人類將從移動計算時代到空間計算時代。
Apple Vision Pro無縫地將數(shù)字內(nèi)容與您的物理空間融為一體。這次最偉大的創(chuàng)舉是把VR和AR統(tǒng)一了,這是MR設(shè)備的定位(Mixed Reality,混合現(xiàn)實),通過超高清攝像頭把現(xiàn)實畫面通過12ms的延遲原封不動地展示給人眼,還能疊加想顯示的任何東西,創(chuàng)造出一種新的交互環(huán)境。這和之前的VR有著本質(zhì)的區(qū)別,(Virtual Reality,虛擬現(xiàn)實)虛擬現(xiàn)實是一種通過計算機生成的仿真環(huán)境,讓用戶可以沉浸其中,感覺自己身臨其境。之前Facebook的Oculus quest系列,國內(nèi)字節(jié)跳動的Pico系列,都屬于VR設(shè)備。
Apple Vision Pro可以簡單地通過使用您的眼睛、手和聲音來進行操作。關(guān)鍵是不再需要手柄了,操作上大大簡化。之前的VR設(shè)備,Oculus quest系列,Pico系列等,都是需要雙手拿著手柄來進行交互。
在這里,可以看出一個關(guān)鍵的區(qū)別,之前的VR設(shè)備,包括著名Oculus quest系列,Pico系列,說到底,本質(zhì)上類比“游戲機”,主要用于游戲和視頻,難以用于工作和生活的方方面面,因此購買的人不少,但使用率不高,往往嘗鮮之后就不用了,所以被很多人稱為超級禮物。而這次蘋果的Apple Vision Pro,定位更像移動時代的“手機”,可以看見現(xiàn)實世界,可以帶著去任何地方,可以用于工作和生活的方方面面。這才可能引領(lǐng)人類進入一種新的生活形態(tài)。
不過,這次唯一的遺憾就是售價有點小貴,$3499美元,差不多人民幣25000。不用一般人用的,但是我相信果粉的號召力,還是不少人會購買。另外這次的產(chǎn)品叫Pro,按慣例,后面推測應(yīng)該會推出價格更低的Air系列產(chǎn)品。
從官網(wǎng)看,蘋果依然用戶視覺優(yōu)先,主打用戶體驗功能
Apps,釋放您的桌面。您的應(yīng)用程序?qū)㈦S之而來:您的Apps存在于您的空間中。通過Vision Pro,您擁有一個無限的畫布,可以改變您使用喜愛的應(yīng)用程序的方式。將應(yīng)用程序隨意排列在任何位置,并按照理想的尺寸進行縮放,使您夢寐以求的工作空間變?yōu)楝F(xiàn)實,同時保持與周圍世界的聯(lián)系。在Safari中瀏覽網(wǎng)頁,在Notes中創(chuàng)建待辦事項列表,在Messages中聊天,并通過一眼之間無縫切換它們。
娛樂,終極劇院。無論您身在何處。沉浸式的娛樂體驗方式:Vision Pro能夠?qū)⑷魏畏块g轉(zhuǎn)變?yōu)槟鷤€人的劇院。通過空間音頻,您可以將電影、節(jié)目和游戲擴展到最合適的尺寸,同時感受自己身臨其境。而且,每只眼睛比4K電視擁有更多的像素,所以無論您身處何處——無論是長途飛行還是家中的沙發(fā)上,您都可以享受令人驚嘆的內(nèi)容。
照片和視頻,重新沉浸在當(dāng)下的時刻中。您的記憶煥發(fā)生機:Vision Pro是蘋果的首款3D相機。您可以以3D形式捕捉神奇的空間照片和空間視頻,然后通過沉浸式的空間音頻再次體驗?zāi)切┱滟F的時刻,前所未有地感受其中的魅力。您現(xiàn)有的照片和視頻庫以驚人的規(guī)模呈現(xiàn)出令人難以置信的效果。全景照片將您圍繞其中,讓您感覺自己仿佛站在拍攝時的位置上。
連接,達成共識,在同一個空間中。讓會議更有意義:Vision Pro讓您可以輕松協(xié)作和連接,無論身在何處。FaceTime視頻塊的大小與真實生活尺寸相同,當(dāng)有新的人加入時,通話畫面會在您的房間中擴展。在FaceTime中,您還可以使用應(yīng)用程序與同事們同時協(xié)作編輯同一份文件。
現(xiàn)在從設(shè)計的視角看看
Apple Vision Pro是幾十年設(shè)計高性能移動和可穿戴設(shè)備的經(jīng)驗的結(jié)晶,是蘋果有史以來最具雄心的產(chǎn)品。Vision Pro將極其先進的技術(shù)融入優(yōu)雅、緊湊的外觀中,每次戴上它都能帶來令人驚嘆的體驗。
一個獨特的三維形成的層壓玻璃作為相機和傳感器觀察世界的光學(xué)表面。它與定制的鋁合金框架無縫融合在一起,柔和地彎曲以環(huán)繞您的臉部,同時作為光密封裝置的連接點。
再說說操作系統(tǒng):
VisionOS 蘋果首個空間操作系統(tǒng)。面向空間計算的交互設(shè)計:visionOS基于macOS、iOS和iPadOS的基礎(chǔ)上構(gòu)建,實現(xiàn)了強大的空間體驗。您可以用眼睛、手和聲音來控制Vision Pro,交互感覺直觀而神奇。只需注視一個元素,用手指敲擊選擇,使用虛擬鍵盤或語音輸入進行打字。
應(yīng)用程序躍入生活。在visionOS中,應(yīng)用程序可以填充您周圍的空間,超越顯示屏的邊界。它們可以在任何位置移動,按照理想的尺寸進行縮放,對房間的光線做出反應(yīng),甚至投射出陰影。
與周圍的人保持聯(lián)系。Vision Pro幫助您與周圍的人保持聯(lián)系。EyeSight可以顯示您的眼睛,并讓附近的人知道您何時在使用應(yīng)用程序或完全沉浸在某種體驗中。當(dāng)有人靠近時,Vision Pro會同時讓您看到對方,并向他們展示您的眼睛。
02硬件配置和未來元宇宙的終極體驗現(xiàn)在來說說Apple Vision Pro的硬件配置(主要素材來自官網(wǎng)):
從內(nèi)而外突破界限,在Vision Pro上的空間體驗只有通過開創(chuàng)性的蘋果技術(shù)才能實現(xiàn)。每只眼睛擁有比4K電視更多像素的郵票大小的顯示屏??臻g音頻方面的令人難以置信的進步。采用了革命性的雙芯片設(shè)計,搭載了定制的蘋果芯片。擁有先進的相機和傳感器陣列。所有這些元素共同協(xié)作,創(chuàng)造了一種前所未有的體驗,您必須親眼見證才能相信。
每只眼睛擁有比4K電視更多像素。定制的微型OLED顯示系統(tǒng)擁有2300萬像素,提供令人驚嘆的分辨率和色彩。特別設(shè)計的三元素鏡頭營造出無處不在的顯示效果,讓您感受到無論往哪里看都有屏幕存在的感覺。
我們迄今最先進的空間音頻系統(tǒng)。每只耳朵旁邊都有雙驅(qū)動器音頻單元,提供個性化的音效,同時讓您聽到周圍的聲音。環(huán)境空間音頻使聲音感覺像來自周圍環(huán)境。通過音頻光線追蹤,Vision Pro分析您房間的聲學(xué)特性,包括物理材料,以調(diào)整和匹配聲音到您的空間。
響應(yīng)迅速、精準(zhǔn)的眼球追蹤。由LED和紅外攝像機組成的高性能眼球追蹤系統(tǒng)將不可見的光模式投射到每只眼睛上。這一先進系統(tǒng)可以提供超精確的輸入,而無需您使用任何控制器,因此您只需通過注視即可準(zhǔn)確選擇元素。
一套復(fù)雜的傳感器陣列。一對高分辨率相機每秒傳輸超過十億個像素到顯示屏,以便您清晰地看到周圍的世界。該系統(tǒng)還能幫助進行精確的頭部和手部追蹤,并進行實時三維地圖繪制,同時能夠理解您在各種姿勢下的手勢。
革命性的雙芯片性能。獨特的雙芯片設(shè)計使得Vision Pro的空間體驗成為可能。強大的M2芯片同時運行visionOS,執(zhí)行先進的計算機視覺算法,并以令人難以置信的效率提供驚人的圖形表現(xiàn)。全新的R1芯片專門負(fù)責(zé)處理來自相機、傳感器和麥克風(fēng)的輸入,以每12毫秒的速度流式傳輸圖像到顯示屏上,實現(xiàn)幾乎無延遲的實時視圖。
激光雷達掃描儀和TrueDepth攝像頭共同工作,創(chuàng)建了一個融合的三維地圖,準(zhǔn)確呈現(xiàn)您周圍的環(huán)境,使Vision Pro能夠在您的空間中精確渲染數(shù)字內(nèi)容。
經(jīng)過特別設(shè)計的熱管理系統(tǒng)輕柔地通過Vision Pro中的空氣流動,因此它可以在保持冷卻和安靜的同時提供卓越的性能。
紅外泛光燈與外部傳感器協(xié)同工作,在低光條件下增強手部追蹤性能。
隱私與安全:內(nèi)置隱私和安全。與每個蘋果產(chǎn)品和服務(wù)一樣,Vision Pro旨在幫助保護您的隱私并使您對自己的數(shù)據(jù)擁有控制權(quán)。它建立在現(xiàn)有蘋果隱私和安全功能的基礎(chǔ)上,利用Optic ID等新技術(shù),這是一種使用您的虹膜的獨特性進行安全認(rèn)證的系統(tǒng)。
根據(jù)以上的硬件硬件配置,Apple Vision Pro帶領(lǐng)人類距離元宇宙又進了一步。
未來元宇宙世界的最重要體驗,第一要素是身臨其境感,即完全把人類的視聽覺包裹在沉浸世界中。元宇宙的終極體驗是,人類能在半虛擬的世界中,看到和真實世界一樣清晰的體驗,也就是類似視網(wǎng)膜級的體驗效果。
怎么做到,首先要理解人眼的結(jié)構(gòu)。
這里有兩個重要的名字
PPD (Pixels Per Degree):每度像素數(shù),是每度視野內(nèi)所包含的像素數(shù)量。較高的PPD值意味著更高的圖像分辨率和更細(xì)膩的視覺細(xì)節(jié)。此指標(biāo)是從用戶的視角來衡量的,人眼的PPD是多少呢,根據(jù)多項實驗證明,視網(wǎng)膜分辨率大概是60PPD,即每度60像素。
FoV (Field of View):視域/視場角,這是指用戶在VR設(shè)備中可以看到的視場角度,通常包括水平視野和垂直視野。更寬闊的FoV可以提供更廣闊的視覺體驗,使用戶更容易沉浸在虛擬環(huán)境中。
但是人類的FoV是多少呢?實驗證明,人眼有多個視域
注意力視域 (Attention Field of View):這是人眼在一次視覺經(jīng)驗中真正關(guān)注和處理詳細(xì)信息的視野范圍。它對應(yīng)于你在看一個物體或場景時,能夠清楚地看到和關(guān)注的區(qū)域。例如,當(dāng)你閱讀這段文字時,你的注意力視野就集中在你正在閱讀的單詞上。
單眼舒適視域 (Comfortable Field of View for one eye):這是指在不移動眼球的情況下,眼睛能舒適地看到的視野范圍。
單眼通常視域 (Typical Field of View for one eye):這是指眼睛在輕微移動眼球的情況下(即不需要轉(zhuǎn)動頭部或身體)可以看到的視野范圍。
單眼最大視域 (Maximum Field of View for one eye):這是指眼睛在極限情況下,即在眼球轉(zhuǎn)動到極限位置并加上周圍的周邊視覺時,可以看到的最大視野范圍。
視域和不同人體質(zhì)是不一樣的,下表是不同視域?qū)?yīng)的分辨率和像素
通常,VR/MR設(shè)備會采用單眼通常視域來設(shè)定,如果要做完全的視網(wǎng)膜級體驗,差不多要做到8K多一點的分辨率。
目前蘋果公司還沒有具體公開分辨率和FoV視場角,但是公開了單眼高達4K,2300萬像素,有其他資料提到(顯示系統(tǒng)使用微型OLED,以便Apple可以在iPhone像素的空間中放入44個像素。每個像素寬7.5微米,有2300萬像素分布在兩個郵票大小的面板上),已經(jīng)遠遠超越了單眼舒適視域,已經(jīng)這遠超過了市場上大多數(shù)競品。
另外,說說眼動追蹤技術(shù),千萬不要小看眼動追蹤技術(shù),能做到優(yōu)秀體驗還真不少。
菜單交互操作:有了眼動追蹤,可以用更加自然簡潔的方式,執(zhí)行類似上下切換和選擇確定的動作。
注視點渲染:眼動追蹤能讓你所注視的畫面區(qū)域顯示清晰,弱化非注視區(qū)域的顯示清晰度。這樣可以大大降低算力的消耗,其實人眼的只有注意力視域要求是非常清晰的,其他部份還好,其實要求沒有高。其實人在精力非常集中的時候,注意力視域只有10度。
如果結(jié)合眼動追蹤技術(shù)和注意力渲染,可以大大節(jié)省渲染算力的開銷,如果采用云渲染的方案,在推流傳輸?shù)臅r候可以結(jié)合分層編碼技術(shù)(類似SVC編碼)從而把視頻碼流率大大降低。
03未來“元宇宙”可能的技術(shù)變化這次Apple Vision Pro,其主機在性能上采用M2芯片,這和蘋果MacBook,ipad pro采用了同樣的計算芯片,其性能也是非常強勁。由于蘋果的M2芯片集成了圖形處理功能,無法直接將其與傳統(tǒng)的獨立顯卡進行直接的型號比較。蘋果的M2芯片在圖形性能方面通常表現(xiàn)出色,并且可以提供高效的圖形處理能力,但與傳統(tǒng)的獨立顯卡相比,其性能和規(guī)格可能會有所不同。但是這樣強勁的芯片,要渲染雙眼4K級游戲畫質(zhì)還是存在巨大的挑戰(zhàn)。
從GPU顯卡的角度,NVIDIA GeForce RTX 3060是一款中高端顯卡,它具有適當(dāng)?shù)男阅芩剑渲С蛛p4K渲染能力相對較有限。雖然RTX 3060在處理4K分辨率方面表現(xiàn)良好,但同時進行雙4K渲染可能會對其性能造成一定的挑戰(zhàn)。對于雙4K渲染,更高性能的顯卡如RTX 3080或RTX 3090等可能更為合適。
我的思考,云渲染依然是未來元宇宙終極體驗所必須的,要看具體的推演,可以看看我之前的思考文章,《探討元宇宙基礎(chǔ)設(shè)施建設(shè)及在云游戲的實踐和思考》。
我現(xiàn)在依然堅持之前的思考,即使Apple Vision Pro所帶來的強大的M2芯片算力,如果要顯示出非常極致的實時3D畫面,還是需要采用云端渲染的技術(shù)方案?;贛2的算力,可以做很大的技術(shù)優(yōu)化,采用云端算力+本地算力結(jié)合的方案做到很好的搭配。
我們看看M2芯片的特性,蘋果 M2 芯片是蘋果公司的第二代自研芯片,用于 Mac 電腦,采用第二代 5 納米工藝,內(nèi)部集成了 200 億個晶體管。蘋果 M2 芯片在硬件上對 AI 深度學(xué)習(xí)的支持主要體現(xiàn)在以下幾個方面:
M2 芯片內(nèi)置了16 核神經(jīng)網(wǎng)絡(luò)引擎,每秒可以進行最多達 15.8 萬億次運算,較 M1 芯片高出 40% 以上(。這意味著 M2 芯片可以更快地處理機器學(xué)習(xí)任務(wù),例如語音識別、圖像處理、自然語言理解等。
M2 芯片支持高速統(tǒng)一內(nèi)存,比 M1 芯片多出一倍。統(tǒng)一內(nèi)存可以讓中央處理器、圖形處理器和神經(jīng)網(wǎng)絡(luò)引擎之間更高效地共享數(shù)據(jù),減少內(nèi)存拷貝和延遲,提升 AI 深度學(xué)習(xí)的性能和效率。
在音視頻領(lǐng)域中,可以用M2芯片的本地計算性能,實現(xiàn)串流音視頻的超分辨率技術(shù),插幀技術(shù)來。
超分辨率技術(shù),超分辨率技術(shù)是一種通過構(gòu)建和學(xué)習(xí)更高分辨率的圖像或視頻,從而改善低分辨率輸入的圖像處理技術(shù)。這個技術(shù)可以用于圖像和視頻的增強,可以從模糊、低分辨率的圖像或視頻中生成清晰、高分辨率的輸出。近年來,深度學(xué)習(xí)已被廣泛應(yīng)用于超分辨率技術(shù),也是主流的超分辨率方案。這種方法通常使用神經(jīng)網(wǎng)絡(luò)(如卷積神經(jīng)網(wǎng)絡(luò))來學(xué)習(xí)低分辨率和高分辨率圖像之間的映射關(guān)系。這種方法可以生成更高質(zhì)量的圖像,但需要大量的計算資源和訓(xùn)練數(shù)據(jù)。未來可以根據(jù)M2芯片16核神經(jīng)網(wǎng)絡(luò)引擎,來設(shè)計硬件加速的超分辨率算法來支持實時超分辨率。
視頻插幀技術(shù):在原始視頻的每兩幀畫面中增加一幀或多幀,縮短幀與幀之間的顯示時間,從而提升視頻的流暢度和清晰度的技術(shù)。未來可以根據(jù)M2芯片16核神經(jīng)網(wǎng)絡(luò)引擎,來設(shè)計硬件加速的視頻插幀算法來支持實時超分辨率。
如果充分利用本地性能,不論是實時云渲染串流,還是音視頻播放,可能做到(1080P,60幀)的云端輸出;然后在本地通過超分辨率技術(shù)和插幀技術(shù)放大稱為(4K,120幀)的效果 。這樣會大大節(jié)約云端算力和網(wǎng)絡(luò)喲流量。雙(1080P,60幀)的實時渲染輸出差不多3060顯卡就可以了;另外蘋果M2芯片本身就支持VVC硬件解碼(h266)。(1080P,60幀)的視頻在h266下,一般碼流率能做到2.5Mbps~5Mbps左右。如果雙眼就是5-10Mbps的碼流率,這樣會大大降低碼流率。相比(4K,120幀)的音視頻流,會大大降低音視頻傳輸帶寬。
另外,如果結(jié)合前面提到的眼動追蹤技術(shù),注意力渲染技術(shù),和SVC編解碼技術(shù),可以再大大降低云端算力,和音視頻傳輸帶寬。這樣對基礎(chǔ)設(shè)施的要求會大大降低。
04算力和未來VR/MR設(shè)備最容易引起的問題就是眩暈,其本質(zhì)是大腦感覺“被欺騙”,包括瞳距、景深等問題,但難解決的是M2P時延問題,即運動到光子的時延,當(dāng)人的頭移動后,畫面是否能足夠低時延地反映效果,若是慢了,大腦會產(chǎn)生“被欺騙”的感覺,從而引發(fā)M2P時延。許多評測數(shù)據(jù)顯示,低運動狀態(tài)下,M2P時延不能高于20ms,高運動狀態(tài)下,M2P時延不能高于7ms。
這里注意Apple Vison Pro,采用全新的R1芯片專門負(fù)責(zé)處理來自相機、傳感器和麥克風(fēng)的輸入來獲取雙眼本來看到的視頻,以每12毫秒的速度流式傳輸圖像到顯示屏上;是完全服務(wù)低運動狀態(tài)下的M2P時延的,不會造成眩暈。
但是,在云渲染的解決方案中,涉及到環(huán)節(jié)就多了,包括編碼、解碼和傳輸環(huán)節(jié),即使做到極限,也很難達到20ms的響應(yīng)值,基本在30-100ms之間。最復(fù)雜的瓶頸在網(wǎng)絡(luò)時延環(huán)節(jié),因為它和基礎(chǔ)設(shè)施有關(guān),和非常分散的網(wǎng)絡(luò)環(huán)境部署相關(guān),不是僅僅單方面的努力就能改善的。
因此,要用邊緣云的方案來解決這樣的問題,也就是要將算力放在靠近用戶的邊緣,在這可以分布式應(yīng)對高并發(fā)、大帶寬、能真正地做到低時延。
只有將云計算的算力從千里之外放到社區(qū)周邊,才可能實現(xiàn)超低時延。
PPIO正通過匯聚邊緣碎片化算力資源,提供超低時延的邊緣計算服務(wù)。我們要和中心云形成良好的協(xié)同,邊緣云并非中心云的替代品,而是起到補足的作用,從而更好地解決客戶需求。
我常常會思考宇宙,人類,生命,技術(shù)之間的關(guān)系,在人類文明誕生以來的5000年中,有誰想過創(chuàng)造宇宙(完全逼真的元宇宙世界),創(chuàng)造數(shù)字生命的事情(具有人類智慧的數(shù)字人),而如今這種偉大的事業(yè)很有可能在我們這代人就能實現(xiàn),或許在不久的將來,我們真的能夠打造一個充滿鮮活生命的“唯心主義世界”,甚至每個人都能“所想即所得”的創(chuàng)造自己的世界。
當(dāng)然,無論是創(chuàng)造宇宙還是數(shù)字生命,最基礎(chǔ)的設(shè)施都是算力,需要無窮無盡的算力,我們PPIO邊緣云的使命便是匯聚全球計算資源,并為全人類服務(wù)。很期待和各位元宇宙,VR/MR從業(yè)者合作,為創(chuàng)造未來貢獻力量。
本文(含圖片)為合作媒體授權(quán)創(chuàng)業(yè)邦轉(zhuǎn)載,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。