为什么虚拟现实视频看着很粗糙,画质渣?

vr之星  于 2017-4-24 19:43:56 |只看大图 回帖奖励 |阅读模式
1 1783
为什么虚拟现实视频看着很粗糙,画质渣?

我们称为 “虚拟现实,” 但我们在 VR 头显所看的画面仍然显得不太真实。为什么画质如此重要呢?真实存在的感觉被称为 “空间沉浸“, 而低画质的视频会大大影响这个这个感觉。今天,大量的虚拟现实视频正努力实现沉浸式体验,因为画质太差会令观众有不真实的感觉。

沉浸感来自于叙事沉浸和空间沉浸的组合。叙事沉浸发生时观众会全身心地投入故事中。想象你正在读一本小说或正在看你喜欢的电影, 你完全沉浸在故事中,你甚至忘记了时间。空间沉浸发生时观众会相信他们身处在一个新的空间里。当我们在一个新的空间里体验风景和声音,并且被这个故事吸引的时候,我们会被触动, 我们可以极大地被触动,当画面和声音对的时候,我们会觉得自己真正处于虚拟现实中。

对于实现叙事沉浸我们没有包准的法则, 但我们可以告诉你们如何做出漂亮又可以愚弄你的感官的视频,创造出空间沉浸的视频。

今天被称为虚拟现实的很多东西都远远低于这一目标。谷歌的 YouTube360 ° 和 Facebook的 360 ° 等服务已经开始定期提供 360 度全景视频内容,这些视频可以在标准视频播放器中播放。360 度视频通常是通过 web 浏览器或一个简单的装置,像Google Cardboard 上传播。 但是移动鼠标或举起Cardboard则需要眼手协调, 这样子会促使沉浸发生。把一部智能手机举到头上好几分钟或许没有什么问题 ,但谁想这样子看一个两小时的电影呢? 一台能够准确而自然地追踪你动作的头戴式显示器会带来更好的体验。

基于手机的头显设备,如目前流行的三星Gear VR 具有良好运动传感器和快速的响应时间,这款头显可以为用户创造身临其境的体验。2016年市场上有了许多新的头显设备。Oculus Rift 和 HTC Vive 都可以连接到 PC上,这使得设备可以使用 PC 的 GPU 功能来快速呈现 3D 数据, 同时也可以充分利用附加传感器来跟踪用户的动作。 手机头显和PC头显都有高分辨率显示和足够多的像素显示,但当头显用于播放视频的时候,视频质量往往较差。

就算是头显设备有高质量的播放硬件,较低的视频质量也可能打破沉浸感。最棘手的部分是如何在适当的时候向设备提供高质量的图像。 Gear VR在今天是广泛使用的设备之一,下面带大家看看它的产品配置和在制作高质量视频中所遇到的挑战。


来自虚拟现实视频内容的挑战
虽然所有头显都有目前几乎最高的分辨率显示屏,但缺陷来自低分辨率的内容。

1. 文件大小:在使用Gear VR的时候 ,视频都要求在平台上进行初始下载。下载量是很大的 — — 甚至超过 1 GB 的大小 — — 缓慢地加载到设备上。这是对体验的第一个不足。


2. 视频画质:第二个也是更加重要的问题是视频画质。即使是专业制作的虚拟现实媒介看上去也是粗糙的令人震惊, 观看的时候感觉是回到上世纪 90年代, 在那时计算机只能够播放标准清晰度的视频。而对于虚拟现实的视频,最遭罪似乎是立体格式。


分辨率
Gear VR 可以支持超高分辨率(UHD) 的播放。在像素方面,UHD视频每一帧有 3840 像素宽 x 1920 像素高的大小。视频经常播放 30 帧每秒 (较低的分辨率也支持高帧率)。Galaxy S6 手机显然是能够轻松地播放 4k 视频的。但这分辨率实在太低,看不到太清的图像。

要明白个中原因,我们需要回答关于分辨率的两个不同的问题。我们看这个Galaxy 屏幕的显示分辨率是多少呢? 让我们把它叫做屏幕分辨率。第二个问题是,在头显中我们可以看到多大的UHD图像 ?我们把它叫做视场分辨率。

Galaxy S6 的屏幕分辨率为 2560 x 1440 像素。所以每只眼睛可以看到 1280 x 1440 像素的图像,通过Gear VR的单个透镜进行查看。

[题外话 ︰ Gear VR 镜头会扭曲图像,实际分辨率是 1280 x 1280。每只眼睛可以看到 1280 x 1280 的图像。还不算太糟糕,但这并不是全屏。但在超过 500 像素 / 英寸的图像下,这应该足够使图像变得清晰。]

让我们回到视场分辨率上。记得视频的每一帧是 3840 × 1920 像素,但是这个视频的每一帧都需要填补 360 ° 的水平视图和 180 ° 的垂直视图。对于Gear VR来说 ,视场是 96 ° — — 超过 360 ° 视图的四分之一多点。当我们查看图像时,我们只会看到一个小方形截面。我们移动头的方向的时候,视野图像就需要更新, 而软件显示的这小部分视图正是我们在某一特定时刻所能看到的图像。这个小方框就被叫做视场。

为什么虚拟现实视频看着很粗糙,画质渣?

视场只是完整的 360 ° 全景视频的一小部分
简单的数学运算显示,每一度的视图对应 10.6667 的像素 (1920像素/180 度 = 10.6667 像素/度)。乘 10.6667 x 96的话,你得到的是 1024。

所以我们透过头显看到的图像是 1024 x 1024 像素 (最多),但显示的大小是 1280 x 1280 像素。还有为什么视频看起来那么粗糙呢。 用软件剪切出来的这一小段视频比显示的分辨率要小。因此软件需要拉伸图像来达到视场所需的分辨率。这还是以较低的标准来衡量的,因为Galaxy 手机需要同时解压图像并把图像投射到屏幕上。这样的结果是,图像会有一点点的粗糙。但 20%的程度不算什么大问题。

立体使它变得更糟
到目前为止讨论的显示问题都只和单源视频有关 (每只眼睛都看到相同的图像)。若要增加沉浸感,立体显示是首选, 每只眼睛看到的偏移图像将会欺骗你大脑的深度感知。对于Gear VR ,立体显示能真正提高现实感。立体图像看起来更加逼真,这是因为偏移量有助于区分场景中的物体。对Gear VR来说, 一些 3D 游戏可以在立体环境中操作,使玩家觉得更加真实。


每只眼睛在理想情况下应该得到高分辨率的 360 ° 视图。这就要求我们在一维空间把分辨率加倍,例如垂直情况,每只眼睛都要单独看到图像。

如果一般的 UHD 视频是 3840 × 1920,每一帧提高一倍分辨率图像将会变成 3840 x 3840的超大图像,这需要硬件支持。但是我们只能将此超大的视频打包在 3840 × 1920 框架上。左眼和右眼共享同一帧的画面,每只眼睛将获取 3840 × 960 像素的图像, 想要覆盖完整的视图,就必须垂直拉伸。

为什么虚拟现实视频看着很粗糙,画质渣?

立体图像从头到脚打包在 3840 x1920 像素里。视场会被垂直挤压 50%。”Image Credit的 鲍勃达斯表示 (Bob Dass) — — Flickr
两个图像视图打包成一帧的结果是每只眼睛得到的分辨率要小得多。缩放比例 20%不是最好的。但缩放 150%(512 像素垂直拉伸到 1280像素) 会导致分辨率感知损失。无论你的格式填充在哪里, 你都会失去一半的分辨率。

流媒体使其变得更小
当我们看着流式视频的时候,情况会变得更糟。 YouTube 360 ° 和其他流式视频服务的分辨率会比4k分辨率低, 这是因为很少有观众有足够大的宽带来观看UHD视频。 因为播放的视频是从互联网上的一个服务器下载观看而不是在本地设备上直接观看,所以他们降低分辨率来保持稳定的流媒体体验。通常, 图像会在 2048 x 1024 的分辨率上上显示。使用上面的公式计算的话,YouTube 每帧 540 x 540 像素的视场分辨率就足够了。360 ° 视频流媒体播放高清分辨率的视频时候, 真的像在看一台只有 720 x 480 或 720 x 576分辨率的旧电视 ,而且它必须拉伸 230%才能全屏播放,这就是为什么播放立体 VR 视频的时候, 会看起来会很粗糙。

越大越好
对于目前的播放设备例如 Galaxy S6 (甚至是即将发布的Oculus Rift ),略大于显示器分辨率的视场分辨率会有帮助。把稍大的图像缩减一下会使图像看起来更加平滑并将减少失真和噪点。

1536 × 1536 像素分辨率会是一个好的分辨率。这比显示器分辨率大 17%左右,在我们的测试中,它的体验有了很大的改善。我们继续使用上面提到的公式, 如果我们想要用1536像素来覆盖 96 ° 视场的话,我们需要 16 像素/度的分辨率。乘以360 ° × 180 °,你将得到 5760 x 2880 的分辨率。结果显示我们需要近 6000 像素以获得更高覆盖率的图像。

那立体呢?记住,对于立体图像,理想的情况是每只眼睛都能看到高分辨图像 (一个聪明的办法是把左眼和右眼钉在一起) 。粗糙的计算,这至少需要 5760 像素宽 5760 像素高的视频文件。这相当于 3千3百万像素的视频。即使有千兆位网速或 5 G 无线网络和更好的压缩, 制作能播放3千3百万像素视频的头显将会成为一个巨大的挑战。

Pixvana 系统
在Pixvana,我们认为还有方法来解决这些分辨率和流量问题。制造接近高清分辨率的流体视频是有可能的,这会让观众在理想分辨率下体验虚拟现实视频。而Facebook 为自己的平台想出的方法是,最小化带宽和用动态流增加前景画质的方法来提高画面质量。有兴趣的话, 你可以去读一下他们的编码博客。

我们现正调查研究如何用更大的分辨率来覆盖视场。其中一个策略是用高分辨率的图像,并且添加额外填充来追踪头部运动。在随着观众移动视线切换不同的画面的时候, 这将会为头显提供更好的视场覆盖, 例如 Gear VR (或是连结PC的头显如HTC Vive和Oculus Rift), 。更好的方法可能是用种方式来打包基于内容的数据编码。封闭的演播室环境与固定的摄像机中的视频镜头可以有很不同的编码, 例如在行驶的车辆里所拍摄的虚拟现实视频。

Pixvana 打算建立一个开源系统,给内容创作者制作高分辨率VR视频所需的所有工具。这种系统能够对头显位置的变化作出反应, 在任何时刻都能提供正确的图像。Pixvana 系统能在各种平台上使用,从手机到 PC。凭借这个系统,视频传输到Gear VR的状况将会明显好转,虚拟现实视频将会实现我们渴望的沉浸感。

| 0 人收藏
回复

使用道具 举报

    您需要登录后才可以回帖 登录 | 马上注册

    本版积分规则

     楼主| 发表于 2017-5-26 16:57:21 | 只看该作者
    沙发
    77777777777
    回复 支持 反对

    使用道具 举报

    QQ|小黑屋|vr资源吧 |网站地图