磐霖Recommend
2023/06/08
阅读量:2915

Apple Vision Pro引发新一轮元宇宙热点,分布式算力网络将助力实现超低时延

导语

在苹果全球开发者大会(WWDC23)主题演讲中,苹果正式发布了首款头显设备Apple Vision Pro。该设备配置了单眼4K分辨率、2300万像素视觉显示效果,并搭载M2主芯片,运用眼动追踪、12ms M2P外显时延等尖端技术,惊喜不断、远超预期,可谓“人类在这场伟大的‘元宇宙登月工程’中,迈出了一大步”。

从Macbook到iPhone,从数字音乐到无线耳机,苹果总是扮演着既有行业的“颠覆者”的角色,并努力成为新一代数字消费产品的“开创者”。Apple Vision Pro的横空出世,无疑为XR行业带来了又一波热点,可以预见的,它同样会掀起新一轮产业发展的市场和投资机会:从产业链看,电池、光学、材料等产业链上下游元器件或模组;从整机层面看,果链的传导式发展、同行的入局竞争将加速XR行业发展;而从产业发展的技术支撑看,基于头显设备生态的应用和内容制作以及算力网络等底层基础设施等将迎来需求增长。

今天,磐霖Recommend带来PPIO联合创始人王闻宇的最新文章《深度解读苹果首款MR眼镜及其对元宇宙技术路线的启示》,一起来看看苹果头显设备中的前沿技术和硬件配置,以及元宇宙产业中无法回避的算力需求的未来趋势。

核心观点如下

1、Apple Vision Pro将引领人类进入一种新的生活形态,让人类距离元宇宙再进一步。此前的VR设备(Oculus、Pico)可类比为“游戏机”,主要用于游戏和视频。而Vision Pro的定位更像移动时代的“手机”,可以用于工作和生活的方方面面。

2、未来,元宇宙世界的第一要素是身临其境感,即完全把人类的视听觉包裹在沉浸世界之中。Apple Vision Pro采用性能强劲的M2芯片并搭载前沿技术,有助于实现这一“身临其境感”,但如果要更进一步,显示出“无限逼近真实”的实时3D画面,则需要采用云端渲染技术,即云端算力+本地算力相结合

3、Apple Vision Pro将开启空间计算时代,人类将从移动计算时代进入空间计算时代。这绕不开边缘云计算。以云渲染为例,边缘云有利于突破网络时延瓶颈,即将云计算的算力从千里之外放到我们的社区周边,分布式应对高并发、大带宽,真正做到低时延。PPIO正通过汇聚边缘碎片化算力资源,提供超低时延的边缘计算服务。

 

我常常会思考宇宙、人类、生命、技术之间的关系,在人类文明诞生以来的5000年中,有谁想过创造宇宙(完全逼真的元宇宙世界),创造数字生命的事情(具有人类智慧的数字人),而如今这种伟大的事业很有可能在我们这代人就能实现,或许在不久的将来,我们真的能够打造一个充满鲜活生命的‘唯心主义世界’,甚至每个人都能‘所想即所得’的创造自己的世界。

—— PPIO联合创始人王闻宇

 

【全文分享】

Apple Vision Pro

在6月6日凌晨的苹果WWDC大会上,第一次正式发布了苹果的MR设备,Apple Vision Pro,将于明年早些时候上市。

这次Apple Vision Pro定位是进入空间计算时代,人类将从移动计算时代进入到空间计算时代

Apple Vision Pro无缝地将数字内容与您的物理空间融为一体。这次最伟大的创举是把VR和AR统一了,这是MR设备的定位(Mixed Reality,混合现实),通过超高清摄像头把现实画面通过12ms的延迟原封不动地展示给人眼,还能叠加想显示的任何东西,创造出一种新的交互环境。这和之前的VR有着本质的区别,虚拟现实是一种通过计算机生成的仿真环境,让用户可以沉浸其中,感觉自己身临其境。之前Facebook的Oculus Quest系列,国内字节跳动的Pico系列,都属于VR设备。

Apple Vision Pro可以简单地通过使用您的眼睛、手和声音来进行操作。关键是不再需要手柄了,操作上大大简化。之前的VR设备,都是需要双手拿着手柄来进行交互。

在这里,可以看出一个关键的区别,之前的VR设备本质上类比“游戏机”,主要用于游戏和视频,难以用于工作和生活的方方面面,因此购买的人不少,但使用率不高,往往尝鲜之后就不用了,所以被很多人称为超级礼物。而这次苹果的Apple Vision Pro,定位更像移动时代的“手机”,可以看见现实世界,可以带着去任何地方,可以用于工作和生活的方方面面。这才可能引领人类进入一种新的生活形态。

不过,这次唯一的遗憾就是售价有点贵,$3499美元,差不多人民币25000元。但是我相信果粉的号召力,还是不少人会购买。另外这次的产品叫Pro,按惯例,后面推测应该会推出价格更低的Air系列产品。

从官网看,苹果依然用户视觉优先,主打用户体验功能

  • Apps,释放您的桌面。
  • 娱乐,终极剧院。
  • 照片和视频,重新沉浸在当下的时刻中。
  • 连接,达成共识,在同一个空间中。

设计的视角看看,Apple Vision Pro是几十年设计高性能移动和可穿戴设备的经验的结晶,是苹果有史以来最具雄心的产品。Vision Pro将极其先进的技术融入优雅、紧凑的外观中,每次戴上它都能带来令人惊叹的体验。

再说说操作系统

  • VisionOS 苹果首个空间操作系统。面向空间计算的交互设计:VisionOS基于macOS、iOS和iPadOS的基础上构建,实现了强大的空间体验。您可以用眼睛、手和声音来控制Vision Pro,交互感觉直观而神奇。只需注视一个元素,用手指敲击选择,使用虚拟键盘或语音输入进行打字。
  • 应用程序跃入生活。在VisionOS中,应用程序可以填充您周围的空间,超越显示屏的边界。它们可以在任何位置移动,按照理想的尺寸进行缩放,对房间的光线做出反应,甚至投射出阴影。
  • 与周围的人保持联系。Vision Pro帮助您与周围的人保持联系。EyeSight可以显示您的眼睛,并让附近的人知道您何时在使用应用程序或完全沉浸在某种体验中。当有人靠近时,Vision Pro会同时让您看到对方,并向他们展示您的眼睛。

硬件配置和未来元宇宙的终极体验

现在来说说Apple Vision Pro的硬件配置:每只眼睛拥有比4K电视更多像素,迄今最先进的空间音频系统响应迅速、精准的眼球追踪,一套复杂的传感器阵列,革命性的双芯片性能,激光雷达扫描仪和TrueDepth摄像头,经过特别设计的热管理系统,红外泛光灯与外部传感器协同工作,隐私与安全。

根据以上的硬件硬件配置,Apple Vision Pro带领人类距离元宇宙又进了一步。

未来元宇宙世界的最重要体验,第一要素是身临其境感,即完全把人类的视听觉包裹在沉浸世界中。元宇宙的终极体验是,人类能在半虚拟的世界中,看到和真实世界一样清晰的体验,也就是类似视网膜级的体验效果。

怎么做到?首先要理解人眼的结构

这里有两个重要的名词:

  1. PPD (Pixels Per Degree):每度像素数,是每度视野内所包含的像素数量。较高的PPD值意味着更高的图像分辨率和更细腻的视觉细节。此指标是从用户的视角来衡量的,人眼的PPD是多少呢,根据多项实验证明,视网膜分辨率大概是60PPD,即每度60像素。
  2. FoV (Field of View):视域/视场角,这是指用户在VR设备中可以看到的视场角度,通常包括水平视野和垂直视野。更宽阔的FoV可以提供更广阔的视觉体验,使用户更容易沉浸在虚拟环境中。

但是人类的FoV是多少呢?实验证明,人眼有多个视域。

  1. 注意力视域 (Attention Field of View):这是人眼在一次视觉经验中真正关注和处理详细信息的视野范围。它对应于你在看一个物体或场景时,能够清楚地看到和关注的区域。例如,当你阅读这段文字时,你的注意力视野就集中在你正在阅读的单词上。
  2. 单眼舒适视域 (Comfortable Field of View for one eye):这是指在不移动眼球的情况下,眼睛能舒适地看到的视野范围。
  3. 单眼通常视域 (Typical Field of View for one eye):这是指眼睛在轻微移动眼球的情况下(即不需要转动头部或身体)可以看到的视野范围。
  4. 单眼最大视域 (Maximum Field of View for one eye):这是指眼睛在极限情况下,即在眼球转动到极限位置并加上周围的周边视觉时,可以看到的最大视野范围。

视域和不同人体质是不一样的,下表是不同视域对应的分辨率和像素:

通常,VR/MR设备会采用单眼通常视域来设定,如果要做完全的视网膜级体验,差不多要做到8K多一点的分辨率。

目前苹果公司还没有具体公开分辨率和FoV视场角,但是公开了单眼高达4K,2300万像素,有其他资料提到“显示系统使用微型OLED,以便Apple可以在iPhone像素的空间中放入44个像素。每个像素宽7.5微米,有2300万像素分布在两个邮票大小的面板上”,已经远远超越了单眼舒适视域,远超了市场上大多数竞品。

另外,说说眼动追踪技术

  • 菜单交互操作:有了眼动追踪,可以用更加自然简洁的方式,执行类似上下切换和选择确定的动作。
  • 注视点渲染:眼动追踪能让你所注视的画面区域显示清晰,弱化非注视区域的显示清晰度。这样可以大大降低算力的消耗,其实人眼对注意力视域的要求是非常清晰的,其他部分要求不高。人在精力非常集中的时候,注意力视域只有10度。

如果结合眼动追踪技术和注意力渲染,可以大大节省渲染算力的开销,如果采用云渲染的方案,在推流传输的时候可以结合分层编码技术从而把视频码流率大大降低。

未来“元宇宙”可能的技术变化

这次Apple Vision Pro,其主机在性能上采用M2芯片,这和苹果MacBook,iPad Pro采用了同样的计算芯片,其性能也是非常强劲。苹果的M2芯片在图形性能方面通常表现出色,并且可以提供高效的图形处理能力,但要渲染双眼4K级游戏画质还是存在巨大的挑战。

云渲染依然是未来元宇宙终极体验所必须的,即使Apple Vision Pro强大的M2芯片算力,如果要显示出非常极致的实时3D画面,还是需要采用云端渲染的技术方案。基于M2的算力,可以做很大的技术优化,采用云端算力+本地算力结合的方案做到很好的搭配。

苹果M2芯片是苹果公司的第二代自研芯片,用于Mac电脑,采用第二代5纳米工艺,内部集成了200亿个晶体管。在音视频领域中,M2芯片的本地计算性能可以实现串流音视频的超分辨率技术和视频插帧技术

  • 超分辨率技术,是一种通过构建和学习更高分辨率的图像或视频,从而改善低分辨率输入的图像处理技术。这个技术可以用于图像和视频的增强,可以从模糊、低分辨率的图像或视频中生成清晰、高分辨率的输出。近年来,深度学习已被广泛应用于超分辨率技术,也是主流的超分辨率方案。这种方法通常使用神经网络(如卷积神经网络)来学习低分辨率和高分辨率图像之间的映射关系。这种方法可以生成更高质量的图像,但需要大量的计算资源和训练数据。未来可以根据M2芯片16核神经网络引擎,来设计硬件加速的超分辨率算法来支持实时超分辨率。

  • 视频插帧技术:在原始视频的每两帧画面中增加一帧或多帧,缩短帧与帧之间的显示时间,从而提升视频的流畅度和清晰度的技术。未来可以根据M2芯片16核神经网络引擎,来设计硬件加速的视频插帧算法来支持实时超分辨率。

如果充分利用本地性能,不论是实时云渲染串流,还是音视频播放,可能做到“1080P,60帧”的云端输出;然后在本地通过超分辨率技术和插帧技术放大称为“4K,120帧”的效果 。这样会大大节约云端算力和网络流量。另外,如果结合前面提到的眼动追踪技术、注意力渲染技术和SVC编解码技术,可以再大大降低云端算力和音视频传输带宽。这样对基础设施的要求会大大降低。

算力和未来

VR/MR设备最容易引起的问题就是眩晕,其本质是大脑感觉“被欺骗”,包括瞳距、景深等问题,但难解决的是M2P时延问题,即运动到光子的时延,当人的头移动后,画面是否能足够低时延地反映效果,若是慢了,大脑会产生“被欺骗”的感觉,从而引发M2P时延。许多评测数据显示,低运动状态下,M2P时延不能高于20ms,高运动状态下,M2P时延不能高于7ms。

Apple Vison Pro采用全新的R1芯片专门负责处理来自相机、传感器和麦克风的输入来获取双眼本来看到的视频,以每12毫秒的速度流式传输图像到显示屏上;是完全服务低运动状态下的M2P时延的,不会造成眩晕。

但是,在云渲染的解决方案中,涉及到环节就多了,包括编码、解码和传输环节,即使做到极限,也很难达到20ms的响应值,基本在30-100ms之间。最复杂的瓶颈在网络时延环节,因为它和基础设施有关,和非常分散的网络环境部署相关,不是仅仅单方面的努力就能改善的。

因此,要用边缘云的方案来解决这样的问题,也就是要将算力放在靠近用户的边缘,在这可以分布式应对高并发、大带宽、能真正地做到低时延。

只有将云计算的算力从千里之外放到社区周边,才可能实现超低时延。

PPIO正通过汇聚边缘碎片化算力资源,提供超低时延的边缘计算服务。我们要和中心云形成良好的协同,边缘云并非中心云的替代品,而是起到补足的作用,从而更好地解决客户需求。

来源:PPIO