亚搏亚搏

欢迎光临
我们一直在努力

世界留学生开发AI“隐身衣”技能!开源GitHub获点赞

刚刚曩昔的 2020 年 ECCV,有一项 AI“隐身衣”技能引人瞩目。该技能来自本次会议录入的论文《光流 - 边际引导的视频补全》。ECCV 是核算机视觉三大会议之一,每两年举行一次,论文录取率仅 27%。

DeepTech 采访到该论文榜首作者高谌,他是一位 90 后北京小伙,现在在弗吉尼亚理工大学核算机工程专业就读博士三年级,师从华人教授 Jia-Bin Huang。

该研讨效果首要是开宣布一项 AI 视频处理算法,其能完结许多 “炫彩” 效果:比方正在行进的车辆,忽然人间蒸发。

图 | 忽然消失的轿车

正在坐秋千的小孩,忽然只剩下秋千架;正在骑马的运动员,跨过栏杆人和马都不见。

图 | 消失的荡秋千小孩

这不是变魔术,而是本次 AI 视频处理算法的功用之一,它依托一种名为光流引导的办法。

据了解,当时视频处理首要面对几大难题:补全后的光流难以做到分段润滑,难以确保时序接连型,难以在高分辨率下完结修正,更难以下降视频对核算的开支。

根据此,高谌提出一种以光流边际为引导

该研讨的首要原理——光流法是视域中物体运动检测的概念,其用于描绘运动所形成的观测方针、外表或边际的运动,首要运用于核算机视觉和印象处理等。运用光流法,可寻到不同帧之间的联系,并经过在不同帧之间传达信息来补全视频。

本次研讨首要包括三个进程:光流完结、内容传达和交融 。

榜首步是光流完结。具体操作时,要核算相邻帧之间的正向光流和反向光流、以及一组非相邻帧 (Non-local) 的正向光流和反向光流。

因为视频或许呈现破损,核算出的光流也需求补全。别的,因为光流是分段润滑的,是否能得到一个锋利光流边际,将直接影响终究的光流补全效果。终究,高谌挑选运用神经网络来补全光流边际,再以光流边际为引导补全光流。

第二步是内容传达。这时要依照光流的轨道,为每个丢掉的像素找到一组候选像素。顺着正向光流和反向光流,最多可找到两个候选点。而在非部分光流的协助下,经过查看三个额定的帧,能够获得额定的三个候选帧。高谌表明,关于每个候选帧,都要估量一个相信分数以及一个二进制有用性方针。

第三步是交融。运用相信加权平均值,将每个缺失像素的候选像素与至少一个有用候选像素交融。并经过梯度域的操作办法,可防止显着的拼接裂缝,然后生成无缝的效果。假设一个像素没有任何候选像素,就意味着它无法经过时刻传达来填充。这时,高谌挑选一个关键帧,并运用单个图画补全技能来填充它。

可完结无痕补视频

本次算法,比较同类算法首要有三大长处:

榜首,此前的补全视频中,用户可显着看出视频 “补过”,“补丁” 鸿沟处十分显着。如下图所示,其效果往往带有痕迹,显得很不天然。而运用本次算法得到的补全视频,其补全区域是无痕的。

图 | 用其他办法很难体现天然

第二,此前用算法给视频补帧时,只能补到前一帧和后一帧,咱们找不到前一帧或后一帧的信息,就会无法补全。而本次算法,不仅能补全前一帧和后一帧,还能跳着补帧。比方,直接跳到榜首帧去借用信息,或许直接跳到终究一帧去借信息,这样就不限制于上一帧或下一帧。别的,此前办法在处理有周期性运动物体呈现的视频时往往比较困难,针对该难题高谌经过引进非部分 ( Non-local ) 信息,来提高视频修正的准确度。

图 | Non-local temporal neighbor ablation

第三,曾经的算法补出来的光流不是很滑润,往往带有显着的接缝。而该团队的算法首要根据光流边际进行补全,终究可得到分段润滑的光流。

图 | 流程完结

以上三个原因,让本次研讨的效果,比曾经办法更好。

此外,因为此算法不限制于 GPU 内存,所以可处理最高 2K 分辨率的视频。这种全自动的算法,可离别之前手动一帧帧地删去视频内容。

众所周知,机器学习算法的开发进程费时吃力,开发本钱高。高谌以为,他们的新算法以彻底自动化的流程替代手艺,会到达更低的本钱。

事实上,机器学习适当于优化问题的进程,优化进程中需求许多 CPU 和 GPU 资源,比方在本次研讨中 Facebook 就供给了很多 GPU。

所以,算法开发本钱十分高,而算法一旦开宣布来,就能够一了百了地进行布置,不论多少视频都能彻底自动化处理。而且,关于一般视频剪辑者来说,即使没有核算机常识,也能运用该技能。

现已开源,可供厂商和个人运用

在肉眼观感上,依托该算法修正的视频,已能做到无痕抹除水印、无痕补全画面残损,在方针辨认和影视后期中,具有很大运用远景。

除用于视频修改外,Vlog 创作者们可运用该算法,营建一个人忽然消失的场景;普通用户则可完结 “美图秀秀” 式的视频处理,比方假日旅行拍照视频时,或许你本来想拍景点,但因为游客太多挡住了景点,运用该算法就能把游客删掉,终究只保存景点自身的视频。

尽管这一进程和删去图片中的内容很类似,但这里是删去同一帧视频中的内容,这也是比较相片处理的难度地点。

再便是针对部分内容缺失的老旧视频,该算法能修正出丢掉或损坏的当地。以几十年前的胶片视频为例,假设视频左上角被水淹过,此处便是彻底一片黑色,既无色彩也无信息,而运用本次算法,则可补全已缺失部分。

具体操作时,咱们某一帧有缺失,就得看能否从视频中的其他帧借到有用信息,也便是 “补丁” 内容不是随便生成,而是自身就在视频里。这样补出来的视频在播映时,就会十分流通。

还有一种或许,整个视频都找不到可借用部分,那就只能求助另一个算法,这种办法叫单帧补全,也便是说从其他帧借不到信息,就只能用一个网络来把这一帧缺失的信息补全。

这一帧补全的信息,还能够借给其他帧,即先从其他人那借,借不过来就自己生成一些,适当于鸡生蛋蛋生鸡,不断循环借出去借回来的进程,直到终究可让整个视频都补全,且播映十分流通。

当时的限制在于,算法无法了解视频的内容,它只能凭借光流找到信息并把信息补全,这也是当时人类 ”抠图师”的优势地点。

本算法现已在 GitHub 开源,任何人都能够免费运用。高谌表明,欢迎厂商或其他研讨人员把该项意图源代码合并到软件中。因为现已开源,只需你对视频修改感兴趣,就能直接用本次研讨效果来做创造性著作。

在 DAVIS 数据集上,高谌将该效果与已有用果进行比照,在峰值信噪比、结构类似性上,均优于其他效果。

不过,高谌在论文中坦言:“咱们的办法运转速度为 0.12 fps,与其他根据光流的办法适当...... 咱们供认运转时刻稍慢是个缺点。”对此,他表明该效果现已开源,因而十分等待圈内人士对其进行优化。

本年 28 岁的高谌,本科时就读于俄勒冈州立大学,主修电子与核算机工程;硕士来到密歇根大学安娜堡分校,就读于电气与核算机工程专业;博士则就读于弗吉尼亚理工大学核算机工程专业,师从华人教授 Jia-Bin Huang。截止现在,已宣布 7 篇被 ECCV、NeurIPS 等顶会选用的论文。

2019 年夏日,高谌在 Facebook 核算拍摄组担任研讨实习生。2020 年夏日,则在谷歌安卓相机算法团队,担任研讨实习生。谈及他未来的方案,他表明依然想去企业作业。

赞( 803 )
未经允许不得转载: 亚搏 » 世界留学生开发AI“隐身衣”技能!开源GitHub获点赞