影史第一片《火车进站》秒变 4K 高清,AI 预测 + 插值,黑白也能变“彩电”

热点专题 阅读(1141)

原标题:摄影史上第一部电影从《火车进站》秒变成4K高清,艾预言插值,黑白也能变成“彩色电视”

来源:雷锋网

作者:蒋宝山

近日,国外优酷网发布了一部纪录片《火车进站》拍摄于1895年通过神经网络增强。整部电影只有45秒长,由路易斯琉米爱尔和奥古斯特琉米爱尔在法国的一个沿海城市拍摄。

这部电影是由35mm格式的电影制成的。因为当时投影仪是用手驱动的,所以它的原始帧速率在16到24帧之间。

由于当时的电影技术还不成熟,我们可以看到当时的场景相当模糊,火车来的时候有明显的拖影。然而,在神经网络的图像分辨率和帧插入的增强之后,旧电影获得了4K 60 fps的图像质量。

如果不是电影的黑白画面和电影独特的画面抖动,画面的平滑度和清晰度几乎可以与当前的智能手机相媲美。这部电影的修复工作是由一个叫丹尼斯希雅耶夫的人完成的,他使用了来自托帕斯实验室的千兆像素人工智能和DAIN图像编辑应用程序。在修复过程中,他不仅把镜头提到了4K,还把帧率提高到了每秒60帧。

Gigapixel AI官方网站截图

《火车进站》这部短片的原始质量非常模糊,分辨率非常低。在Shiryaev用千兆像素人工智能渲染电影并在电影中加入他自己的声音后,观看体验实际上完全符合当前的标准。

根据官方网站,千兆像素人工智能软件嵌入了一个专有的插值算法,可以在分析图像时识别图像的细节和结构。即使图像放大了600%,它也能使图像更清晰。值得一提的是,电影中的一些图像是通过GAN生成的。

另一方面,Dai(深度感知视频帧插值)可以预测电影中的帧,并将它们插入到现有的视频中。换句话说,DAIN分析并映射视频剪辑,然后在现有图像之间插入生成的填充图像。为了在这部1896年的影片中达到与4K相同的效果,Shiryaev在影片中加入了足够多的图像,从而将“图片展示”增加到每秒60帧。

因此,DAIN每秒自动生成36幅图像,并将它们添加到电影中。此外,基于相同的人工智能技术,神经网络可以将一组彩色照片转换成黑白照片,然后对其进行训练以重构彩色原件,从而将黑白电影转换成彩色。如下图所示。

基于深度学习的DAIN视频帧插入技术

这部百年老电影已经被转换成4K电影。深度学习技术已经做了很多努力,更具体地说,是视频帧插入技术在深度学习中的体现。当然,深度感知视频帧内插也不是最近的技术。早在2019年,CVPR 2019就收录了这一技术的相关论文,相关算法也在Github上开放。

下载地址:

Address:

DAIN本文第一作者鲍文波是上海交通大学电子信息与电气工程学院的博士生。具体工作基于2018年发表的论文《MEMC网》的改进。

具体效果类似于英伟达的开源超级慢动作,也就是说,它可以从普通视频中“填充”高帧频图像,从30帧/秒到240帧/秒,即使它慢了8倍,也不会觉得卡住。

这种新的帧插值算法DAIN比因维达算法有更清晰的效果和更高的帧速率,因维达算法可以进一步插值30帧/秒到480帧/秒。具体到算法层面,研究人员提出了一种通过探索深度信息来检测遮挡的方法。

A深度传感光流投影层,用于合成中间流,对远处的物体进行采样。此外,学习分层函数以从相邻像素收集上下文信息。更具体地说,如上图所示,整个算法分为光流、深度、上下文特征、插值核和帧合成。

光流估计模块采用PWC-NET光流估计模型。由于在没有监督的情况下学习光流非常困难,作者从预先训练好的PWC-Net中初始化光流估计网络。

在深度部分,不同于以往的网络模型采用计算平均值的方法,为了解决遮挡区域的问题,作者提出了一种利用深度辅助计算tt时刻光流融合结果的方法。融合权重使用深度值的倒数。简单地说,当合成光流时,深度值越大,权重越小。在

context feature一节中,作者指出,在CtxSynNet论文中,上下文特征的添加已被证明有助于视频插值。因此,本文设计了一个基于弹性块的网络,从零开始提取上下文特征和训练。

插值核自适应扭曲层部分,主要思想是通过光流找到像素的新位置,用一个特殊的核在4x4内乘上新位置,然后用它作为点的像素值。该核由两部分相乘得到,一部分是图像缩放中常用的双线性插值,其中每个位置的权重只与坐标距离有关,另一部分也是插值核,通过网络学习得到。

帧合成。为了生成最终的输出帧,作者构建了一个由3个残差块组成的帧合成网络。扭曲的输入扭曲深度图、扭曲上下文特征、扭曲和插值核被连接作为帧合成网络的输入。此外,两个扭曲帧被线性混合,网络被迫预测真实地面帧和混合帧之间的残差。

loss函数是真实帧和混合帧之间的残差。这个函数被称为夏邦尼尔损失,是L1损失的一个变种,但增加了一个常规项。使用的训练数据集是Vimeo90K,它有3个训练三元组,每个三元组包含3个分辨率为256×448像素的连续视频帧。

在训练过程中,作者使用网络来预测每个三元组的中间帧(即t=0.5)。在测试过程中,模型可以生成任何中间帧。此外,训练数据也通过水平和垂直旋转以及颠倒三胞胎的时间顺序来增加。

在具体的训练策略中,作者使用AdaMax优化网络,将β1和β2分别设置为0.9和0.999,将核估计、上下文提取和帧合成网络的初始学习率设置为1e?4 .因为流量估计和深度估计网络是从预先训练的模型初始化的,所以较小的学习速率1e?6和1e?7 .

此外,为整个模型联合训练了30个时期,然后每个网络的学习率降低了0.2倍,并且为其他10个时期对整个模型进行了微调。值得一提的是,作者在NVIDIA Titan X (Pascal) GPU卡上对模型进行了训练,花了大约5天时间才达到收敛状态。

至于实验结果,我们不会在这里过多地分析将两个片段放在不同的数据集和最近的论文上的优缺点。总的来说,作者提出了一种深度感知的视频帧插入方案,并试图明确地解决遮挡区域的问题。本文尝试用光流由粗到细的思想来解决大运动问题。学习到的分层特征和深度被用作上下文信息,以更好地合成中间帧。那么,这种深度学习技术在具体的电影修复中能起到什么作用呢?2019年的几部人工智能修复电影可能会给我们答案。

开国大典,获胜的时刻是艾复辟

去年是中华人民共和国成立70周年。除了令人印象深刻的阅兵,10月下旬发布的《开国大典》真的很感人。这部电影展示了从三战胜利到开国大典的整个历史过程。

这部电影于1989年9月21日首次上映。这部电影分为18卷,持续了164分钟。由于当时的拍摄条件,必须恢复图像质量才能重新发布。在维修过程中,制造商最大限度地利用DRS维修系统的功能,将自动维修与手动维修相结合。

通过人工智能算法,可以解决旧胶片的收缩、卷曲等问题,但是胶片的撕裂和划伤需要由专业的维修人员逐帧修复。然而,胶片的撕裂和划痕需要由专业的修补人员逐帧修复。

除了《开国大典》,《决胜时刻》在9月份发布时也采用了人工智能技术。据电影制作人说,这种材料来自俄罗斯的一部彩色纪录片,但由于年代久远,画面质量模糊,颜色失真。然而,在复杂的4K修理工作之后,最终的画面体验被呈现。

此外,《厉害了,我的国》是中国电影数字制作基地数字修复中心主任肖波和他的团队使用人工智能修复的尝试。

为了更顺利地进行修复工作,肖波的团队开发了一种人工智能图像处理系统“中英神思”。通过使用计算机大数据深度学习算法,在四个月内修复和增强了30万帧图像。使用“中国电影与精神”,修复一部电影的时间可以缩短3/4,成本降低一半。iQiyi开发的

ZoomAI也是一种基于深度学习的视频修复技术。该技术内部由多个模块组成,每个模块负责一个或多个图像质量增强方向,例如超分辨率、噪声去除、锐化、颜色增强等。

每个模块由一个或多个深度学习模型组成。综上所述,利用卷积神经网络和最先进的图像识别技术让经典老电影再次闪亮不再遥不可及。与其他方法相比,通过深度学习技术修复电影可以节省时间和精力。经典电影的复原和数字化也能让人们更容易获得更多的文化产品。

References

返回搜狐查看更多

负责任的编辑: