亚洲 欧洲 日韩 综合色天使,久久国产Av无码一区二区老太,人妻醉酒被下药迷昏带到诊所 ,亚州老熟女A片AV色欲小说

快手視頻在線看,快手視頻在線看怎么看?

轉(zhuǎn)載整理自 快手視頻技術(shù)
量子位 | 公眾號(hào) QbitAI

現(xiàn)在,視頻超分辨率算法又迎來新突破。

一篇最新登上CVPR 2022的論文,從一種新的視角,統(tǒng)一了視頻超分辨率中的低分辨率和高分辨率的時(shí)序建模思路。

論文提出一種新的視頻超分辨率框架,以較小的計(jì)算代價(jià),充分利用了低分辯和高分辨率下的時(shí)序互補(bǔ)信息,以此帶來更多細(xì)節(jié)和紋理的超分辨率結(jié)果。

快手視頻在線看,快手視頻在線看怎么看?

研究在多個(gè)公開數(shù)據(jù)集上達(dá)到了SOTA效果,也為后續(xù)的視頻超分辨率研究提供了新的靈感。

快手視頻在線看,快手視頻在線看怎么看?

文章地址:https://arxiv.org/abs/2204.07114
代碼地址:https://github.com/junpan19/VSR_ETDM

視頻超分辨率難在哪?

超分辨率計(jì)算機(jī)視覺領(lǐng)域的經(jīng)典技術(shù),利用圖像的自然結(jié)構(gòu)信息實(shí)現(xiàn)圖像從低分辯率到高分辨率的映射。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)通過強(qiáng)大的擬合能力,在圖像超分辨率場景取得了嘆為觀止的效果。

于是人們開始將目光轉(zhuǎn)向更難的視頻超分辨率任務(wù),并在視頻領(lǐng)域得到大規(guī)模的落地實(shí)踐,如在快手App的服務(wù)端、移動(dòng)端等業(yè)務(wù)都已廣泛應(yīng)用。視頻超分辨率的難點(diǎn)在于時(shí)序信息的利用,即如何利用多幀圖像序列間的互補(bǔ)信息來產(chǎn)生超分辨率所需的紋理細(xì)節(jié)。

現(xiàn)有的時(shí)序建模方法大致分為兩個(gè)方向。

一個(gè)是基于光流[1,2,3]、可變形卷積[4,5]、3D卷積[6,7]的方法。這類方法會(huì)在低分辨率層面顯性或者隱性地建模前后幀的時(shí)序信息,然后經(jīng)過融合網(wǎng)絡(luò)得到重建的高分辨率結(jié)果。由于這些建模的結(jié)構(gòu)大多基于神經(jīng)網(wǎng)絡(luò),并且較為復(fù)雜,有時(shí)難以直接插入到任意的視頻框架中。

另一個(gè)時(shí)序建模的思路是基于遞歸隱狀態(tài)累積的方法[8,9,10,11,12],通過不斷在隱層累積歷史特征來建模整段視頻序列的互補(bǔ)信息。

這種方案最早采用了單向的循環(huán)卷積網(wǎng)絡(luò),即只利用當(dāng)前幀與前一幀和歷史累積的結(jié)果作為網(wǎng)絡(luò)的輸入,融合得到超分辨率結(jié)果。該方式的好處是在一定的信息累積后,僅用較小的網(wǎng)絡(luò)結(jié)構(gòu)和運(yùn)算成本便可取得可觀的收益。但它的問題是前幾幀的信息累積不充分,導(dǎo)致初始幾幀的超分辨率效果都會(huì)受到損失。在實(shí)際場景中需要“預(yù)熱”一段時(shí)間后才可以被使用。

雙向循環(huán)卷積網(wǎng)絡(luò)是緩解信息分配不平衡的一個(gè)解決方案,它將視頻的全部信息分別進(jìn)行正向和反向的傳播,最終結(jié)合正向和反向的信息生成超分辨率結(jié)果。本文深入分析了這種方法,并發(fā)現(xiàn)雙向的傳播策略也面臨兩個(gè)問題。

(1)信息利用的靈活性。由于雙向的傳播策略通常是利用前一個(gè)和后一個(gè)的時(shí)序特征,所以當(dāng)這些時(shí)刻發(fā)生遮擋或者視差變換時(shí),誤差也會(huì)累積到隱層特征中,對(duì)當(dāng)前時(shí)刻的超分產(chǎn)生錯(cuò)誤結(jié)果。

一個(gè)直觀的解決方案是直接將多個(gè)時(shí)刻的信息傳播到當(dāng)前時(shí)刻,但較大的運(yùn)動(dòng)差異反而會(huì)影響融合的效果。近期有一些方法,采取對(duì)預(yù)測結(jié)果進(jìn)行運(yùn)動(dòng)補(bǔ)償來彌補(bǔ),但無論是光流還是可變形卷積都會(huì)引入龐大的計(jì)算開銷。

(2)實(shí)時(shí)性。由于雙向循環(huán)卷積網(wǎng)絡(luò)的每次運(yùn)算都要導(dǎo)入所有圖像序列的處理,導(dǎo)致難以在實(shí)況直播這種因果系統(tǒng)中應(yīng)用。

此外,無論是在相鄰幀的融合方式,還是在特征傳播上,現(xiàn)有的視頻超分辨率框架仍沒有統(tǒng)一的處理方案,往往需要應(yīng)對(duì)各自的時(shí)序建模的對(duì)象來單獨(dú)設(shè)計(jì)策略,這也引發(fā)了本文的思考,是否存在一種統(tǒng)一的策略,來對(duì)低分辨率圖像和高分辨率結(jié)果進(jìn)行時(shí)序建模?

面對(duì)上述問題,本文提出用相鄰幀的時(shí)間殘差圖來統(tǒng)一低分辨率和高分辨率的時(shí)序建模視角。

在低分辨率空間下,輸入幀的時(shí)間殘差圖可以用來區(qū)分這兩幀間中的低變化和高變化區(qū)域,不同的區(qū)域所包含的互補(bǔ)信息應(yīng)當(dāng)在重建中被區(qū)分對(duì)待。在高分辨率空間下,時(shí)序殘差圖可以將不同時(shí)刻的預(yù)測結(jié)果以較小的運(yùn)算代價(jià)傳播到任意過去和未來的時(shí)刻。

值得一提的是,所提出的視頻超分辨率框架(ETDM)雖然是單向循環(huán)網(wǎng)絡(luò)的傳播結(jié)構(gòu),但在時(shí)間殘差圖的幫助下,當(dāng)前時(shí)刻的初步超分辨率結(jié)果可以被多個(gè)過去和未來的結(jié)果進(jìn)一步增強(qiáng)。

圖1展示了ETDM在學(xué)術(shù)公開集Vid4上的處理效果,超過了眾多已經(jīng)發(fā)表的視頻超分辨率方案,同時(shí)也展示了一張圖片從320×180超分到1280×720所需的速度。ETDM方法以單向的循環(huán)卷積網(wǎng)絡(luò)結(jié)構(gòu)超過了大部分單向、雙向、多幀融合的方法,達(dá)到了更好的效果與速度的平衡。

快手視頻在線看,快手視頻在線看怎么看?

△圖1 ETDM方法與其他SOTA方法在效果和速度上的對(duì)比

具體如何實(shí)現(xiàn)?

如圖2所示,本文提出的視頻超分辨率結(jié)構(gòu)(ETDM)是一個(gè)基于單向結(jié)構(gòu)的循環(huán)卷積網(wǎng)絡(luò),即隱層特征只采用正向的傳播方式。對(duì)于每個(gè)時(shí)刻,網(wǎng)絡(luò)的輸入分為兩個(gè)層面:一個(gè)是低分辨率空間下的圖像序列(前一幀I{t-1}、當(dāng)前幀I{t}和后一幀I{t+1};另一個(gè)是高分辨率空間下的預(yù)測結(jié)果。

ETDM的核心是提出用相鄰幀的差分圖來統(tǒng)一這兩個(gè)層面下的時(shí)序建模方式。這里定義當(dāng)前幀為參考幀,時(shí)間差分圖為參考幀與相鄰幀的差,它既可以表示為前后幀圖像的像素變化差異,也可以被認(rèn)為是參考幀到鄰近幀的轉(zhuǎn)換“橋梁”。接下來將從這兩方面具體介紹時(shí)間差分圖的應(yīng)用方式。

快手視頻在線看,快手視頻在線看怎么看?

△圖2 所提出的ETDM網(wǎng)絡(luò)結(jié)構(gòu)

在低分辨率空間下的顯性時(shí)序建模

由于視頻幀在獲取時(shí)具有連續(xù)性,存在冗余和非冗余的時(shí)序信息,因此相鄰幀有著不同程度的互補(bǔ)信息。為了驗(yàn)證這一點(diǎn),采用圖3描繪了參考幀相對(duì)鄰近幀在不同區(qū)域的像素變化程度,不同的顏色表示不同的強(qiáng)度。

快手視頻在線看,快手視頻在線看怎么看?

△圖3 相鄰兩幀每個(gè)像素點(diǎn)的差異程度

可以發(fā)現(xiàn),相鄰幀中存在像素點(diǎn)運(yùn)動(dòng)差異變化程度較小和較大的區(qū)域。這種差異程度具有一定啟發(fā)性,是否能用時(shí)間殘差圖將鄰近幀拆分為低變化(LV)和高變化(HV)的區(qū)域。

直覺上,LV區(qū)域的表征變化細(xì)微,那么相鄰幀的互補(bǔ)信息可能來源于微小的細(xì)節(jié);而HV區(qū)域的整體差異較大,可以從不同方面提供更粗尺度的互補(bǔ)信息。

但是,時(shí)間差分圖是非常稀疏的。為了得到完整的劃分區(qū)域,我們先對(duì)它用3×3進(jìn)行濾波和圖形化方法處理,然后將其變?yōu)槎祷臅r(shí)序差分圖并作用到原圖上,得到LV和HV區(qū)域,如下所示:

快手視頻在線看,快手視頻在線看怎么看?

由于自然圖像的平滑性,LV可能對(duì)應(yīng)幀間小運(yùn)動(dòng)的區(qū)域,而HV可能對(duì)應(yīng)大運(yùn)動(dòng)的區(qū)域。

因此在融合方式上,本文選擇用參數(shù)共享但感受野不同的融合網(wǎng)絡(luò)。具體來講,為HV分支的前幾層網(wǎng)絡(luò)分配了更大的空洞率,從而捕捉更大的運(yùn)動(dòng)信息。

在高分辨率空間下的顯性時(shí)序建模

殘差圖的另一層含義是參考幀到鄰近幀的轉(zhuǎn)換“橋梁”。于是,除了重建當(dāng)前時(shí)刻的超分辨率結(jié)果外,我們還會(huì)重建當(dāng)前時(shí)刻到過去和未來的高分辨率時(shí)序殘差圖。

如上圖2所示,我們?cè)谔卣魈崛【W(wǎng)絡(luò)后增加了3個(gè)Residual Head (Spatial-Residual Head, Past-Residual Head 和 Future-Residual Head)。它們分別預(yù)測當(dāng)前時(shí)刻的超分辨率結(jié)果,當(dāng)前到過去的時(shí)序殘差圖的超分辨率結(jié)果,以及當(dāng)前到未來的時(shí)序殘差圖的超分辨率結(jié)果。

通過利用所預(yù)測的時(shí)序殘差圖,當(dāng)前、未來或者過去時(shí)刻所預(yù)測的超分辨率結(jié)果便可以傳播到當(dāng)前時(shí)刻,并為當(dāng)前時(shí)刻提供更多互補(bǔ)信息。

于是,我們提出了時(shí)序往返優(yōu)化機(jī)制。對(duì)于當(dāng)前時(shí)刻而言,過去時(shí)刻和未來時(shí)刻的結(jié)果可以按照下面的方式傳播到當(dāng)前時(shí)刻:

快手視頻在線看,快手視頻在線看怎么看?

傳播過來的結(jié)果帶來了不同時(shí)刻下的互補(bǔ)信息,因此可以幫助當(dāng)前時(shí)刻的超分辨率結(jié)果獲得進(jìn)一步優(yōu)化。

我們進(jìn)一步發(fā)現(xiàn),時(shí)間殘差圖具備累積轉(zhuǎn)移特性,即當(dāng)前時(shí)刻到任意時(shí)刻的時(shí)間轉(zhuǎn)移都可以用這段時(shí)間內(nèi)每個(gè)相鄰幀的時(shí)序殘差圖來累積得到。于是,自然地將傳播過程進(jìn)階擴(kuò)展到任意的時(shí)間順序上。下式展示了將第t-l個(gè)時(shí)刻的結(jié)果傳遞到當(dāng)前時(shí)刻:

快手視頻在線看,快手視頻在線看怎么看?

同理,也可以將t+l個(gè)時(shí)刻的結(jié)果傳遞到當(dāng)前時(shí)刻:

快手視頻在線看,快手視頻在線看怎么看?

為了充分利用不同時(shí)刻下的互補(bǔ)信息,我們維護(hù)了長度為N的存儲(chǔ)器,來存儲(chǔ)N個(gè)過去和未來時(shí)刻的超分辨率結(jié)果,即

快手視頻在線看,快手視頻在線看怎么看?

快手視頻在線看,快手視頻在線看怎么看?

下圖表示了存儲(chǔ)器的更新過程。

快手視頻在線看,快手視頻在線看怎么看?

△圖4 存儲(chǔ)器的更新過程

這里以第t幀處理后,開始重建第t+1時(shí)刻的幀為例。此時(shí),網(wǎng)絡(luò)不僅需要更新隱層的特征,還需要更新存儲(chǔ)器中的特征,采用下方公式來更新:

快手視頻在線看,快手視頻在線看怎么看?

效果如何?

一些現(xiàn)有的方法采用不同的數(shù)據(jù)集來訓(xùn)練網(wǎng)絡(luò),這些數(shù)據(jù)集中的紋理分布不同,對(duì)性能也具有一定影響,不利于公平地比較。本文采用了公開的數(shù)據(jù)集Vimeo-90K來訓(xùn)練網(wǎng)絡(luò),并在該數(shù)據(jù)下復(fù)現(xiàn)了部分已有的方法。具體性能比較如圖5所示。

快手視頻在線看,快手視頻在線看怎么看?

△圖5 定量的性能對(duì)比

圖5 展示了不同方法在公開數(shù)據(jù)集Vid4,SPMCS,UDM10,REDS4的對(duì)比結(jié)果。ETDM方法在客觀評(píng)價(jià)指標(biāo)PSNR和SSIM上超過了大部分視頻超分辨率方法。圖5表中也記錄了不同方法4倍超分辨率一張320×180圖像的所需時(shí)間。

可以發(fā)現(xiàn),ETDM方法超過了大部分基于時(shí)間滑動(dòng)窗的多幀融合算法,如TGA、RBPN和EDVR,也超過了部分基于雙向循環(huán)卷積網(wǎng)絡(luò)的方法。值得一提的是,雖然ETDM的主干網(wǎng)絡(luò)為單向的隱層傳遞,但它也超過了BasicVSR、GOVSR這類基于雙向卷積網(wǎng)絡(luò)的方法。

在使用上,ETDM支持靈活設(shè)置所要傳播的未來和過去的結(jié)果個(gè)數(shù),而并不需要使用整段視頻的所有幀作為輸入,因此具備比雙向網(wǎng)絡(luò)結(jié)構(gòu)更靈活的應(yīng)用能力。

快手視頻在線看,快手視頻在線看怎么看?

△圖6 定性的性能對(duì)比

圖6 展示了在公開數(shù)據(jù)集上的定性對(duì)比結(jié)果,ETDM方法可以產(chǎn)生更豐富的細(xì)節(jié)和準(zhǔn)確的結(jié)構(gòu)。

下面是一些視頻的對(duì)比結(jié)果(上:輸入,下:超分辨率后的結(jié)果)

快手視頻在線看,快手視頻在線看怎么看?

快手視頻在線看,快手視頻在線看怎么看?

總結(jié)

視頻超分辨率的一個(gè)重點(diǎn)是時(shí)序互補(bǔ)信息的利用方式,業(yè)內(nèi)多采用基于多幀運(yùn)動(dòng)補(bǔ)償和基于遞歸隱狀態(tài)累積的方式分別對(duì)低分辨率和高分辨率進(jìn)行時(shí)序建模。

本文重新思考了這個(gè)問題,并從新的角度提出了用時(shí)序差分來統(tǒng)一低分辨率和高分辨率下的時(shí)序建模方法。

時(shí)序差分的第一層含義是描述前后幀圖像的像素變化差異,因此在低分辨率下可以用來區(qū)分輸入序列的高變化和低變化的區(qū)域;第二層含義是相鄰兩幀的轉(zhuǎn)換“橋梁”,因此在高分辨率下可以用于傳播不同時(shí)刻的預(yù)測結(jié)果。進(jìn)一步,本文將高分辨率下的單時(shí)刻轉(zhuǎn)移擴(kuò)展為任意時(shí)刻的轉(zhuǎn)移,并存儲(chǔ)了多個(gè)時(shí)刻的結(jié)果來優(yōu)化當(dāng)前時(shí)刻。

本文是快手與大連理工大學(xué)賈旭副教授合作的,包括TGA,RSDN,RRN系列視頻超分辨率工作的后續(xù)工作。所提出的ETDM在多個(gè)公開數(shù)據(jù)集上取得了不錯(cuò)的結(jié)果,以單向循環(huán)卷積的結(jié)構(gòu)超過了SOTA的EDVR,GOVSR,BasicVSR等方法。

參考文獻(xiàn):

[1] Tianfan Xue, Baian Chen, Jiajun Wu, Donglai Wei, and William T Freeman. Video enhancement with task-oriented flow. International Journal of Computer Vision, 127(8):1106– 1125, 2019.

[2] Mehdi SM Sajjadi, Raviteja Vemulapalli, and Matthew Brown. Frame-recurrent video super-resolution. In CVPR, 2018.

[3] Xin Tao, Hongyun Gao, Renjie Liao, Jue Wang, and Jiaya Jia. Detail-revealing deep video super-resolution. In ICCV, 2017.

[4] Xintao Wang, Kelvin CK Chan, Ke Yu, Chao Dong, and Chen Change Loy. Edvr: Video restoration with enhanced deformable convolutional networks. In CVPRW, 2019.

[5] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong, and Chen Change Loy. Understanding deformable alignment in video super-resolution. In AAAI, 2021.

[6] Takashi Isobe, Song jiangLi, Xu Jia, Shanxin Yuan, Gregory Slabaugh, Chunjing Xu, Ya-Li Li, Shengjin Wang, and Qi Tian. Video super-resolution with temporal group attention. In CVPR, 2020.

[7] Younghyun Jo, Seoung Wug Oh, Jaeyeon Kang, and Seon Joo Kim. Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation. In CVPR, 2018.

[8] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong, and Chen Change Loy. Basicvsr: The search for essential components in video super-resolution and beyond. In CVPR, 2020.

[9] Takashi Isobe, XuJia, Shuhang Gu, Songjiang Li, Shengjin Wang, and Qi Tian. Video super-resolution with recurrent structure-detail network. In ECCV, 2020.

[10] Dario Fuoli, Martin Danelljan, Radu Timofte, and Luc Van Gool. Fast online video super-resolution with deformable attention pyramid. CoRR, abs/2202.01731, 2022.

[11] Takashi Isobe, Fang Zhu,Xu Jia,and Shengjin Wang. Revisiting temporal modeling for video super-resolution. In BMVC, 2020.

[12] Peng Yi, Zhongyuan Wang, Kui Jiang, Junjun Jiang, Tao Lu, Xin Tian, and Jiayi Ma. Omniscient video super-resolution. In ICCV, 2021.

快手音視頻技術(shù)團(tuán)隊(duì)介紹

快手音視頻技術(shù)團(tuán)隊(duì)由業(yè)界資深的行業(yè)專家組成,涵蓋了算法、工程、產(chǎn)品等多個(gè)領(lǐng)域。自2016年成立以來,團(tuán)隊(duì)建立了業(yè)界領(lǐng)先的短視頻和直播技術(shù)體系,保障快手海內(nèi)外數(shù)億用戶體驗(yàn),驅(qū)動(dòng)平臺(tái)多元業(yè)務(wù)的發(fā)展。

基于豐富多樣的視頻應(yīng)用場景,快手音視頻技術(shù)團(tuán)隊(duì)構(gòu)建了包括點(diǎn)播云、直播云、RTC等產(chǎn)品體系。通過算法優(yōu)化和工程建設(shè),團(tuán)隊(duì)以用戶體驗(yàn)為導(dǎo)向,采用數(shù)據(jù)驅(qū)動(dòng)、質(zhì)量評(píng)測及產(chǎn)品化等手段,實(shí)現(xiàn)了從視頻制作、云端處理到視頻消費(fèi)的全鏈路技術(shù)創(chuàng)新,打造更為極致的音視頻體驗(yàn)。

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)

本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 sumchina520@foxmail.com 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。
如若轉(zhuǎn)載,請(qǐng)注明出處:http://www.qjsdgw.cn/127011.html