未来的科技产品会是什么样子?微软Hololens 2使用体验分享

2007年乔布斯向世人展示第一代iPhone时,可能很多人都没有意识到这是一款划时代产品。不过遗憾或许能够填补,有消息说苹果的AR眼镜已经完成了设计转向工程验证阶段。但直到现在,我们对这个可能会替代手机的下一代产品还是一无所知,它是如何显示信息,如何操控和交互。在产品没有正式发布前,这些都是核心机密。我们也无法回答上面这些问题,但我们可以好好研究一下当下最好的AR眼镜——微软Hololens 2。

目前购买Hololens 2需要到微软官网进行填表,并且只开放了公司购买,需要提供营业执照,付款的时候也只能进行对公转账。微软还会打电话进行核实。虽然购买过程曲折,但我们最终还是拿到了这款产品。

AR眼镜的显示技术

AR是增强现实(Augmented Reality),这和我们平时在玩游戏时接触的VR不同,VR仅仅是虚拟现实。当我们使用VR设备时,将完全遮挡眼睛,看到的也全是虚拟画面。而AR眼镜并不会遮挡我们眼睛看真实世界,而是将虚拟画面融入真实场景。我们可以说AR相对于VR是更进一步的技术。如果你对此没有概念的话,可以想象在《名侦探柯南》中柯南使用的那个眼镜。

那么在设计AR眼镜时,第一个难题是如何显示信息。能否使用透明电视这样的显示技术呢,屏幕在有信息的地方展示信息,无信息的地方就使用alpha通道达到透明的效果,这样人眼就能同时看到真实世界了。可是问题来了,由于人眼的最小对焦距离大约为6.5cm,再小就无法对焦,看到的也是一片模糊。眼镜与人眼距离要比6.5cm小得多,就算把眼镜镜片做成透明显示设备来显示信息,也无法看清楚,这一条路行不通。VR眼镜的技术解决方案是用凸透镜来改变光路,但经过凸透镜后现实中的物体会一起变形,所以这样也行不通。

那么哪一种技术可以做到有显示区域让眼睛对焦看清楚,而无显示的区域透明呢?答案就是投影。在AR眼镜内部生成图像,再通过反复的折射延长光路,投射到视网膜上,就能够有足够的对焦距离。同时对于投影技术来说,黑色的地方就是没有显示内容的透明,虽然已经很接近最终解决方案了,但还不是最终答案。因为无论是靠分光到三块硅基芯片的LCoS投影,还是靠无数个微动小镜子反射的DLP,体积对于眼镜来说都太大了。而且在短距离内无法做到很高的投放比,发热量也高。

Hololens 1用的就是可视面积小还很热的LCoS方案。因此想使用投影方案其实并不难,难的是如何能把投影做小。可能有些朋友见过上面这个激光键盘,它是Microvison公司的产品,从1993年开始这家公司就专注研发微型投影技术。Microvison的微投影方案是由三色激光器发出的激光,通过棱镜汇合后射向两个微镜,一个快镜控制横向扫描,一个慢镜控制纵向移动,这样一行一行的把画面给扫出来。这个方案体积小、发热低,只需要控制镜子的转动 角度,投放比想要多大就有多大,跟AR眼镜简直是绝配。但问题终于迎刃而解了吗?

microvision的微投影方案

AR眼镜使用投影方案时,需要将成像投影到视网膜上,这就要求投影要非常准确的落在视网膜上才能看清。但是不同的人有不同的瞳距,就算是同一个人佩戴AR眼镜时也会有偏差。解决的办法是将图像复制成多份,其中只有位于晶状体主轴上的图像会被投射到视网膜清晰成像,其他的图像不会造成重影,这个过程称为“扩瞳”。复制图像的方法是在玻璃上刻出多条大小只有几纳米的沟壑,被称为光栅。再调整光栅的形状、厚度就可以调整折射率,从而精准控制光线的反射比例和传播光路。

hololens光栅

在Hololens中生成的图像先是垂直摄入输入光栅,然后传递到转折光栅,这个过程经过了水平扩瞳。然后再传递到输出光栅完成垂直扩瞳以后,最终被复制成多份,投射到人眼。而Hololens 2为了增大可视面积,也就是最后输出光栅的面积,使用了两块转折光栅来最终拼成一块完整的图像。

AR眼镜内部在扩瞳的过程中,还导致了一个非常有趣的现象,就是当移动眼镜的时候,按照常理显示的物体也应该跟着移动。但当我们戴上Hololens 2真实体验时,发现即使AR眼镜移动时,显示物体的空间位置竟然完全不动,确实让人感到震惊。这究竟是如何做到的呢?其实Holens 2中放了不止一台投影仪,而是两台,这两台投影仪分别给左右眼投放了不同的图像。两天投影仪的画面并非简单的复制,而是在立体世界中人的两眼看到的画面是不一样的。

当然上面这个新技术目前还不够成熟,最终的效果也没有想象中那么美好。Hololens 2在宣传中提到视场角由34度提升到了52度,上面的视场角指的是对角线,换算成水平的是43度,与当前成熟的VR成像仍然有比较大的差距。Hololens 2宣传中提到显示刷新率是120Hz,不过这是隔三行扫描,所以每隔4次刷新才能组成一个完整的画面。静止的时候没有明显感觉,只要一移动画面边缘就会出现扫描跟不上的断裂痕迹。

Hololens 2在宣传中还表示这是一块最小的2K屏,每一度的像素数达到了47,但在实际观感中仍然可以清晰的看到像素点。我们从纵向微动镜是27kHz推算,每秒120帧就能显示225行,每四帧组成一个完整画面即900行。减去上下溢出的一点损失,每个画面的纵向大概是800多行。这样算下来,每一个角度的像素数不到30,清晰度只相当于视网膜屏幕的一半。

Hololens 2在宣传中表示亮度能够达到500nit,但在较亮的环境下,画面和现实物体结合后,亮度明显不足。宣传中还表示Hololens 2在很大程度上降低了彩虹效应,而实际在我们使用发现彩虹效应仍然比较明显。这是因为对于光栅来说,不同的光反射率不同,就需要为红绿蓝做三层波导。Hololens 2将绿色分给了红蓝两层,镜片变薄,增加了透光率的同时,白色就变成了五彩斑斓的白(彩虹效应)。

总的来说,Hololens 2激进的采用了激光扫描、微动镜、光波导、光栅、扩瞳技术。这些虽然还没有规模量产,但都决定了未来的显示技术,苹果如果似乎也没有太多其他更好的选择。

AR眼镜的定位技术
解决了显示问题,但对于AR眼镜更难的是对于现实世界的认知和定位。AR眼镜需要准确地判断现实物体的方位距离属性,才能够在视觉和听觉上模拟真实的关系。在认识外部世界这个过程中,AR眼镜面临的困难和所有人工智能AI、自动驾驶做的第一件事情是一样的。手机通过陀螺仪、加速计一整套IMU来快速得知手机和物体的相对关系,但这样的感知并不准确。解决的办法最先想到的是模拟人眼,也就是将大量的图像丢给机器学习算法来判断摄像头看到的到底是什么,再通过多颗不同位置摄像头图像差来判断物距和背景。手机上的人像扣图和特斯拉的自动驾驶都是这种模式,但是这种方法和人眼有同样的缺点,就是容易产生错觉,出现误判。

2020年5月7日,美国佛罗里达州一辆特斯拉S型电动车发生了车祸,事发时车辆行驶方向逆光,而前方拖挂货车的侧面呈现白色,自动驾驶系统和驾驶人都没有感知到,也就没有采取刹车举动。所以,只有图像是不行的,还需要引入激光雷达来捕捉物体的深度信息。激光雷达主要发射端和接收端构成,垂直的枪面发射激光器作为发射端向物体发射一束红外光,经过发射被图像传感器接收,光束经历的这一段时间被称为飞行时间(ToF)。这样直接测量光从出发到返回的用时就能准确地判断物体的深度信息。图像信息结合深度信息再经过一个非常复杂的算法,就能建立相对准确的空间模型,不过这个过程需要非常强大的算力。

譬如说有了这个技术,你可以拿着Go Pro绕着商场走一圈,就能把整个商场的点源都记录下来,但同时需要把这几百G的数据上传到云端才能计算出来,这个速度显然无法满足AR眼镜实时显示的需求。因此摄像头与激光雷达的组合能够达到高精度要求,但速度慢;陀螺仪和加速器虽然精度低,但速度快。二者配合相互校准就可以实现比较快、也相对准确的空间认知,这个过程在行业内就叫做SLAM(Simultaneous Localization And Mapping)。

与视觉一起被识别定位的是声音。当我们转过头的时候,AR眼镜需要做的是模拟出对应的声音方位的变化,AR眼镜会将人头进行建模,生成头部相关传输函数(HRTF:Head Realated Transfer Functions),模拟经过头部和耳廓反射影响以后的声音再传给耳道。这个过程需要不少的计算资源。微软在SLAM方面有着深厚的积累,Xbox游戏机上的Kinect体感游戏就是微软最早的技术积累成果。

HoloLens 2使用的是第四代Kinect技术,用四颗可见光摄像头覆盖全部事业,一个ToF传感器检测深度,加上加速度计、陀螺仪获得的信息进行SLAM定位。在计算能力上,由于AR眼镜自身的空间限制,微软专门做了一个HPU(Holographic Processing Unit)全息处理芯片,采用的台积电16nm制作工艺,拥有10亿个晶体管可以实现每秒1万亿次的可编程计算操作。HPU将各个模块分得很细,总共有13个计算单元。比如声频信号交给FFT单元,深度数据交给DNN单元处理。总的来说,用更专职的划分来换取更低的延迟。

在实际使用过程中,Hololens 2对于复杂物体的边界穿模现象还是比较严重的,甚至两个虚拟页面之间也会存在穿模。在测试中,我们将们关上,也不会有声音上的遮挡变化。如果将苹果的ARkit进行参考对比,在整个环境的建模上,苹果的LIDAR三角形数量更多,精细度也更高,但是在利用建模处理遮挡关系的时候,两者表现都不好。归根结底,制约还是在小体积下的计算能力。Hololens 2的表现基本上整体符合预期,但我们在测试中发现Hololens 2点击墙壁可以得到识别出来空间的3D信息,在断电之后再开机,查看Device Portal的时候会发现空间信息一直存在,每次开机都是在补充新的细节,长此以往不知不觉中就把整个公司办公室所有房间3D结构都记录下来了。这就是说只要是曾经去过的地方,就永远不会忘,这是在做什么呢?Hololens 2是在试图奖励一个真实世界的公共参考点,通过云分享就可以跨设备共享坐标系统,并且各自有着正确的遮挡关系。

AR眼镜在解决如何定位已经是很难了,但是起码整个行业在一起努力,更难的是如何跟三位世界中的物体进行交互,这是微软要自己解决和重新开发的。在二维交互中鼠标、键盘发明出来以后就基本没有变过。在三维世界中Hololens最依赖的还是手势识别。手势识别领域最早的先驱是Leap Motion,用相机配合神经网络推测出手的关节模型,通过计算机特征点之间的相对位置可以得知手势。Oculus的VR已经可以做到,苹果在WWDC的技术交流环节上也展示过他们的手势识别,而Hololens更进一步可以做到用自然的手势操作全息影像,比如抓起、旋转、甚至是双手操作。但这样做还是面临一个最大的问题就是没有触感和反馈,比如说点击的时候我们需要用手指操作幅度很大才能够确认点击成功。同样的还有滑动操作,屏幕上可以判断抬起的位置有没有发生平移,而三维空间没有反馈载体,只能是手势识别,导致点击滑动和移动手指难以区分,容易误判。Hololens 2因此也取消了一代的爆炸式手势。抓起、旋转,甚至是双手操作也都是因为没有反馈而手感奇怪。

当然后来也努力的去做了一些虚拟的反馈效果,比如说抓起边界的时候线和弯曲手指预计落点会有一个小圆圈,接近按钮的时候按钮会发光,按一下的时候不光改变Z轴,还会配合音效。但即使是这样,还是因为反馈不够明确,操作起来效率很低。为了弥补交互上的缺陷,微软用眼球追踪和语音作为了补充,Hololens在鼻梁的上方放置了两个摄像头来追踪眼球,可以神奇的捕捉到你眼镜盯着看的位置。但在这之后还是需要语音、手势或者按键来确认选择。Hololens 2头顶有三颗麦克风捕捉环境噪音用于降噪,眼镜下方有两个波束成形的麦克风用于精准的捕捉嘴部音频,即使环境噪音很大,也可以正确识别语音。

语音支持以Cortana为核心的自然语言交互,也支持几个固定的指令,比如说“跟我走”、“放大”、“缩小”、“关闭”。AR应用也可以支持自定义语音指令。可以说在三维AR的交互中,Hololens 2做了很多有益的尝试探索,但也反映出来无论是手势、眼球、语音这些方式都不是特别的靠谱。如何设计出一套像键盘、鼠标那样高效的操作逻辑,目前还是一个没有突破的难题。

除了以上我们提到的显示、识别定位、交互操作,还有一点是接下来要提到的,就是材料。在一次对Hololens 负责人Kipman的采访中,他提到所有研发难题里边最难攻克的是机身材料,Hololens 2里面有太多的精密器件需要联合工作,在超高的计算量下稍稍的发热,就会导致机身材料的一点点热量变形,这就可能导致各种偏差和显示不准。而在AR眼镜里面又不能用任何的风扇进行散热。最终,微软的工程师是通过Hololens肩部的两个“烟囱”进行散热的。同时在骁龙850 CPU上使用钛合金均热板,又尝试了大量的材料,最终确定碳纤维作为机身材料。碳纤维的特点是坚固、重量轻、杨氏模量大、强度大,通过严格的工艺控制,可以让热胀系数接近于0.

总结,必须要说Hololens 2有着很多的缺点,这也是新技术不成熟的时候必须要付出的代价。也是Hololens严格控制购买用途的原因。但不得不说他身上的创新技术对每一个科技迷来说都是一个研究不完的宝藏。我们并不知道苹果的AR眼镜的实际效果最终会怎么样,但是通过对Hololens的了解,我们对AR眼镜既不会过分悲观,也不会过分期待。而最大的兴趣点是,苹果又是如何面对这些难题的。正如2007年大部分人还不知道未来科技产品长什么样子的时候,可能现在已经有一个我们不知道,但是即将改变世界的产品。
发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章