苹果公司在刚刚结束的WWDC2023上发布的其首款混合现实头显设备 Vision Pro ,不仅具有强大的空间追踪与环境感知能力,还深度融合了虚拟现实与增强现实技术,在全球范围内引发了热烈的讨论。诠视科技作为拥有空间计算核心底层技术的XR领军企业,其创始人CEO林瓊近日接受了新浪VR媒体采访,干货满满。
林瓊:这是一个新时代的开启
新浪VR小编:苹果公司刚刚发布了全新混合现实头显设备Vision Pro,从开始研发到正式发布,经历了7年时间,您认为苹果为什么选择这个时间点发布这款产品?
林瓊:如库克所说,Mac将我们带入个人计算时代,iPhone将我们带入移动计算时代,Vision Pro将我们带入空间计算时代,这一演变体现了人机交互方式的不断革新,从键盘鼠标、触屏,到姿态、眼控、手势、语音等更加自然的交互形式的演绎,是人类回归更加自然交互方式的必由之路。苹果在这个时间发布这款产品是在其完整的传统交互产品之上的一个统合性的升级,集大成之作,是其产品迭代的节点,为今后10年定了方向。宛如2015年的iPhone,风口已来。
新浪VR小编:作为资深的业内人士,您如何评价这款产品?
林瓊:这款产品包含大量业界开创性的技术和概念,其众多的技术细节如大家所见,是登峰造极的,最核心的芯片技术和感知交互技术, 两者相辅相成。其中强大的算力和处理带宽是解决三维空间低延迟感知交互的必备条件,为实现感知交互而打造的R1协处理芯片是实现空间计算与多传感器融合的基础,分布式计算的架构再一次被验证是MR的必由之路, 这也是诠视科技从入场的第一天就坚持的技术路径。我们也有完整的技术和产品方案。
图:Xvisio SeerLensTM B50A Pro
比如我们已经发布的SeerLens B50RE就支持了4相机+IMU的VSLAM头部追踪定位、TOF+RGB相机的三维重建、双目相机做的三维手势交互、眼控、AI降噪的语音和低延时的OST显示,在即将发布的一体机升级版SeerLens B50A Pro里增加了下方视角的双目相机覆盖手势追踪,让手势操作更加轻松。我们也做到了MTPL(Motion to Photon Latency) 小于10ms。我们深刻地理解到,要做好三维空间的感知交互, 算力和算法是最核心的条件。Vision Pro的推出,给业界示范了各种技术路径的可能性以及和生态结合的想象空间。
Vision Pro也面临大家老生常谈的应用场景的挑战。之前业界在不同层面上都有过尝试,但没人信,没人买单。苹果的出牌是C端应用的风向标,这是苹果的市场号召力。同样的技术和路径,为什么只有苹果能玩起来,就是其生态的力量。
新浪VR小编:苹果表示 “空间计算”时代已经来临,您认为这是一个新概念吗?
林瓊:所谓空间计算是空间感知与交互的笼统称呼。空间计算的目的是让我们能够实现流畅自然的三维空间交互体验。我们从PC、手机的二维世界,进入到三维世界, Vision Pro以及其他各类XR(AR/VR/MR)设备所带来的最大革新就是更加自然的三维空间沉浸式的交互体验。为实现此目的,要有用来形成三维立体视觉的,放在眼前的显示屏(称之为近眼显示屏), 以及用于感知姿态、肢体动作、眼动的传感器及数据处理单元。如我们所见,在Vision Pro里用到了大量的各类相机。视觉传感是XR设备的主要传感器,它具有体积、功耗、重量、速度、成本的众多优势。但因为视觉传感是以像素为单位的空间传感技术,而像素级的图像处理是要消耗巨大算力的任务。要实现沉浸式体验,对使用者的位置与姿态的感知是前提,视觉SLAM(即时建图与定位)就是XR产品必备的核心底层技术。要实现流畅的体验,高精度低延时的VSLAM算法对算力要求很高。此外要实现实时的三维环境重建,实现虚实结合,也需要极高算力。这也就解释了所谓空间计算的必要性。这个概念不是个新东西。诠视科技自2017年创立以来,一直从事以VSLAM为基础空间感知交互技术与人机交互技术的研发,形成了一套完整的算力+算法的单元化产品解决方案 SlimEdge XR,和基于VSLAM和空间计算技术的系列产品:
SeerSenseTM
SeerLensTM
SeerControllerTM
SeerGesture
SeerPadTM
然而当这个概念被苹果引入到C端市场后,就会人人皆知。这也是苹果的灯塔效应。
这是一个新时代的开启, 就像手机触屏一样,老概念在苹果手上就被玩火了。很无奈,也很庆幸我们终于等到了这一天。
新浪VR小编:从发布的信息来看,这款Vision Pro产品使用了4个传感器和6个麦克风,总共控制了12个摄像头,您觉得这是否重新定义了行业标准?
林瓊:并不是,这些技术都是成熟的,声场技术已经很成熟,几年前的Hololens已经有8个摄像头, Magic Leap II 也有12个以上的摄像头。为追求极致的体验,一般要配备4个摄像头做SLAM,2个摄像头做眼控,2个RGB摄像头做VST,TOF摄像头做深度。Vision Pro的创新是加了2个EyeSight 相机和外部显示屏,让外界可以看到佩戴者的眼神。至于是否能成为新标准,要看显示行业发展速度。OST的AR透视应该更加自然。Vision Pro是个旗舰级产品,我们可以用其几个功能组合就能落地很多应用场景,做个Lite版,这也是Vision Pro对行业的教育和示范作用。
至于双芯片架构倒是和行业的趋势一致。高通的AR2也是基于类似的布局。然而早年我们坚持双芯片的架构还经常不被理解。
新浪VR小编:Vision Pro 这次的头戴式显示器,只凭手势、眼控、声音进行交互,你觉得这是未来元宇宙交互的主流方向吗?
林瓊:空间计算与多模态交互是 Vision Pro的亮点,也是三维时代的交互特征。目前VR以手柄为主,以眼控+手势替代手柄固然方便,但也要看场景。手势的弊端是没有反馈,有些场景手柄还是有其优势,尤其是近来流行的独立追踪的6DOF手柄,我们把它比喻为三维鼠标。诠视科技推出的SeerController就是集多年的技术大成打造的这样一款产品。该产品获得了3项中美发明专利,也希望能作为Vision Pro的备选外设,值得期待。
新浪VR小编:如何看待苹果选择VST(Video See Through)方案?
林瓊:VST 是在VR的基础上增加了透视能力,变身成MR。其优势是可以利用VR大的视场角和内容生成。和VST相对应的是OST(Optical See Through)前者是通过相机看世界与虚拟的内容结合, 后者是通过裸眼看世界,把虚拟内容与现实相结合。VST可以做到110° 的视场角, OST目前一般为50°-70°。VST虽然可以看到外部世界,但还会有VR固有的一系列问题:如VAC(聚焦冲突的问题)、重量、眩晕感、封闭感等。
OST的挑战是显示器件的分辨率、视场角、亮度和色彩还有待提高。VST只是过渡性的解决方案,看世界毕竟还是是隔靴搔痒。未来一定是OST的终局。
新浪VR小编:EyeSight令人大开眼界,您怎么看待这项技术?
林瓊:这是在OST成熟前的无奈的解决方案。也反映了人们社交的需求。实现起来代价还是比较高的。
新浪VR小编:3D视频引发了大家的热议,这种技术现在国内有类似的方案吗?
林瓊:那个3D视频的功能也不是新东西,在Xvisio SeerLens B50系列里我们早就提供了这类能力,即RGBD的3D成像的能力。在很多手机里也集成了类似功能。之前没有3D的呈现手段,看不出其价值。苹果把这项技术集成在其应用里的示范意义更大,这还是得益于苹果的生态能力。
新浪VR小编:如何看待 Apple Vision Pro 续航仅 2 小时,能否满足用户需求?
林瓊:C端可更换电池基本够用,但可更换的设计也是无奈的选择。有人说这少了些果味。比起把电池放在头显上,这个选择更好。在B端我们的分体式产品的设计要支持4小时续航。
新浪VR小编:3P Pancake方案的优缺点是什么?
林瓊:Pancake轻薄,成像质量好,一定是VR光学显示的方向,目前就是成本高。但未来一定会降下来,国内已经有众多的厂家参与到供应链的赛跑中了。
新浪VR小编:苹果真正进军这个行业了,国内企业的机会在哪?
林瓊:苹果的入场无疑给行业打了一剂强心针,大家看到了一个3D元宇宙时代的复合生态的发展路径和很多技术路径的可行性,堪称行业教科书。未来各个行业都有在垂直领域找到相应技术与产品的落地机会。诠视科技经过几年的耕耘后,面向空间计算、感知交互储备了全栈的技术能力,包括分布式计算芯片平台、SLAM定位追踪、深度检测、AI识别、手势眼控交互、语音控制、AROS、多相机系统标定、XR系统延迟补偿、多人协同等一系列能力,打造了Seer系列产品。目前已经在赋能医疗、工业、教育等领域的应用场景。国内的各个行业的数字化进程发展迅速,都将拥有非常广阔的发展空间。
欲了解更多关于诠视科技的信息,敬请访问我们的
官方网站:https://www.xvisiotech.com
如有合作意向,请通过以下联系方式与我们取得联系:
邮箱:contact@xvisiotech.com
电话:+86-021-5290 0903
我们将竭诚为您提供优质的服务与支持。