亚洲 欧洲 日韩 综合色天使,久久国产Av无码一区二区老太,人妻醉酒被下药迷昏带到诊所 ,亚州老熟女A片AV色欲小说

快手視頻在線看,快手視頻在線看怎么看?

轉載整理自 快手視頻技術
量子位 | 公眾號 QbitAI

現(xiàn)在,視頻超分辨率算法又迎來新突破。

一篇最新登上CVPR 2022的論文,從一種新的視角,統(tǒng)一了視頻超分辨率中的低分辨率和高分辨率的時序建模思路。

論文提出一種新的視頻超分辨率框架,以較小的計算代價,充分利用了低分辯和高分辨率下的時序互補信息,以此帶來更多細節(jié)和紋理的超分辨率結果。

快手視頻在線看,快手視頻在線看怎么看?

研究在多個公開數(shù)據(jù)集上達到了SOTA效果,也為后續(xù)的視頻超分辨率研究提供了新的靈感。

快手視頻在線看,快手視頻在線看怎么看?

文章地址:https://arxiv.org/abs/2204.07114
代碼地址:https://github.com/junpan19/VSR_ETDM

視頻超分辨率難在哪?

超分辨率計算機視覺領域的經(jīng)典技術,利用圖像的自然結構信息實現(xiàn)圖像從低分辯率到高分辨率的映射。隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡通過強大的擬合能力,在圖像超分辨率場景取得了嘆為觀止的效果。

于是人們開始將目光轉向更難的視頻超分辨率任務,并在視頻領域得到大規(guī)模的落地實踐,如在快手App的服務端、移動端等業(yè)務都已廣泛應用。視頻超分辨率的難點在于時序信息的利用,即如何利用多幀圖像序列間的互補信息來產(chǎn)生超分辨率所需的紋理細節(jié)。

現(xiàn)有的時序建模方法大致分為兩個方向。

一個是基于光流[1,2,3]、可變形卷積[4,5]、3D卷積[6,7]的方法。這類方法會在低分辨率層面顯性或者隱性地建模前后幀的時序信息,然后經(jīng)過融合網(wǎng)絡得到重建的高分辨率結果。由于這些建模的結構大多基于神經(jīng)網(wǎng)絡,并且較為復雜,有時難以直接插入到任意的視頻框架中。

另一個時序建模的思路是基于遞歸隱狀態(tài)累積的方法[8,9,10,11,12],通過不斷在隱層累積歷史特征來建模整段視頻序列的互補信息。

這種方案最早采用了單向的循環(huán)卷積網(wǎng)絡,即只利用當前幀與前一幀和歷史累積的結果作為網(wǎng)絡的輸入,融合得到超分辨率結果。該方式的好處是在一定的信息累積后,僅用較小的網(wǎng)絡結構和運算成本便可取得可觀的收益。但它的問題是前幾幀的信息累積不充分,導致初始幾幀的超分辨率效果都會受到損失。在實際場景中需要“預熱”一段時間后才可以被使用。

雙向循環(huán)卷積網(wǎng)絡是緩解信息分配不平衡的一個解決方案,它將視頻的全部信息分別進行正向和反向的傳播,最終結合正向和反向的信息生成超分辨率結果。本文深入分析了這種方法,并發(fā)現(xiàn)雙向的傳播策略也面臨兩個問題。

(1)信息利用的靈活性。由于雙向的傳播策略通常是利用前一個和后一個的時序特征,所以當這些時刻發(fā)生遮擋或者視差變換時,誤差也會累積到隱層特征中,對當前時刻的超分產(chǎn)生錯誤結果。

一個直觀的解決方案是直接將多個時刻的信息傳播到當前時刻,但較大的運動差異反而會影響融合的效果。近期有一些方法,采取對預測結果進行運動補償來彌補,但無論是光流還是可變形卷積都會引入龐大的計算開銷。

(2)實時性。由于雙向循環(huán)卷積網(wǎng)絡的每次運算都要導入所有圖像序列的處理,導致難以在實況直播這種因果系統(tǒng)中應用。

此外,無論是在相鄰幀的融合方式,還是在特征傳播上,現(xiàn)有的視頻超分辨率框架仍沒有統(tǒng)一的處理方案,往往需要應對各自的時序建模的對象來單獨設計策略,這也引發(fā)了本文的思考,是否存在一種統(tǒng)一的策略,來對低分辨率圖像和高分辨率結果進行時序建模?

面對上述問題,本文提出用相鄰幀的時間殘差圖來統(tǒng)一低分辨率和高分辨率的時序建模視角。

在低分辨率空間下,輸入幀的時間殘差圖可以用來區(qū)分這兩幀間中的低變化和高變化區(qū)域,不同的區(qū)域所包含的互補信息應當在重建中被區(qū)分對待。在高分辨率空間下,時序殘差圖可以將不同時刻的預測結果以較小的運算代價傳播到任意過去和未來的時刻。

值得一提的是,所提出的視頻超分辨率框架(ETDM)雖然是單向循環(huán)網(wǎng)絡的傳播結構,但在時間殘差圖的幫助下,當前時刻的初步超分辨率結果可以被多個過去和未來的結果進一步增強。

圖1展示了ETDM在學術公開集Vid4上的處理效果,超過了眾多已經(jīng)發(fā)表的視頻超分辨率方案,同時也展示了一張圖片從320×180超分到1280×720所需的速度。ETDM方法以單向的循環(huán)卷積網(wǎng)絡結構超過了大部分單向、雙向、多幀融合的方法,達到了更好的效果與速度的平衡。

快手視頻在線看,快手視頻在線看怎么看?

△圖1 ETDM方法與其他SOTA方法在效果和速度上的對比

具體如何實現(xiàn)?

如圖2所示,本文提出的視頻超分辨率結構(ETDM)是一個基于單向結構的循環(huán)卷積網(wǎng)絡,即隱層特征只采用正向的傳播方式。對于每個時刻,網(wǎng)絡的輸入分為兩個層面:一個是低分辨率空間下的圖像序列(前一幀I{t-1}、當前幀I{t}和后一幀I{t+1};另一個是高分辨率空間下的預測結果。

ETDM的核心是提出用相鄰幀的差分圖來統(tǒng)一這兩個層面下的時序建模方式。這里定義當前幀為參考幀,時間差分圖為參考幀與相鄰幀的差,它既可以表示為前后幀圖像的像素變化差異,也可以被認為是參考幀到鄰近幀的轉換“橋梁”。接下來將從這兩方面具體介紹時間差分圖的應用方式。

快手視頻在線看,快手視頻在線看怎么看?

△圖2 所提出的ETDM網(wǎng)絡結構

在低分辨率空間下的顯性時序建模

由于視頻幀在獲取時具有連續(xù)性,存在冗余和非冗余的時序信息,因此相鄰幀有著不同程度的互補信息。為了驗證這一點,采用圖3描繪了參考幀相對鄰近幀在不同區(qū)域的像素變化程度,不同的顏色表示不同的強度。

快手視頻在線看,快手視頻在線看怎么看?

△圖3 相鄰兩幀每個像素點的差異程度

可以發(fā)現(xiàn),相鄰幀中存在像素點運動差異變化程度較小和較大的區(qū)域。這種差異程度具有一定啟發(fā)性,是否能用時間殘差圖將鄰近幀拆分為低變化(LV)和高變化(HV)的區(qū)域。

直覺上,LV區(qū)域的表征變化細微,那么相鄰幀的互補信息可能來源于微小的細節(jié);而HV區(qū)域的整體差異較大,可以從不同方面提供更粗尺度的互補信息。

但是,時間差分圖是非常稀疏的。為了得到完整的劃分區(qū)域,我們先對它用3×3進行濾波和圖形化方法處理,然后將其變?yōu)槎祷臅r序差分圖并作用到原圖上,得到LV和HV區(qū)域,如下所示:

快手視頻在線看,快手視頻在線看怎么看?

由于自然圖像的平滑性,LV可能對應幀間小運動的區(qū)域,而HV可能對應大運動的區(qū)域。

因此在融合方式上,本文選擇用參數(shù)共享但感受野不同的融合網(wǎng)絡。具體來講,為HV分支的前幾層網(wǎng)絡分配了更大的空洞率,從而捕捉更大的運動信息。

在高分辨率空間下的顯性時序建模

殘差圖的另一層含義是參考幀到鄰近幀的轉換“橋梁”。于是,除了重建當前時刻的超分辨率結果外,我們還會重建當前時刻到過去和未來的高分辨率時序殘差圖。

如上圖2所示,我們在特征提取網(wǎng)絡后增加了3個Residual Head (Spatial-Residual Head, Past-Residual Head 和 Future-Residual Head)。它們分別預測當前時刻的超分辨率結果,當前到過去的時序殘差圖的超分辨率結果,以及當前到未來的時序殘差圖的超分辨率結果。

通過利用所預測的時序殘差圖,當前、未來或者過去時刻所預測的超分辨率結果便可以傳播到當前時刻,并為當前時刻提供更多互補信息。

于是,我們提出了時序往返優(yōu)化機制。對于當前時刻而言,過去時刻和未來時刻的結果可以按照下面的方式傳播到當前時刻:

快手視頻在線看,快手視頻在線看怎么看?

傳播過來的結果帶來了不同時刻下的互補信息,因此可以幫助當前時刻的超分辨率結果獲得進一步優(yōu)化。

我們進一步發(fā)現(xiàn),時間殘差圖具備累積轉移特性,即當前時刻到任意時刻的時間轉移都可以用這段時間內每個相鄰幀的時序殘差圖來累積得到。于是,自然地將傳播過程進階擴展到任意的時間順序上。下式展示了將第t-l個時刻的結果傳遞到當前時刻:

快手視頻在線看,快手視頻在線看怎么看?

同理,也可以將t+l個時刻的結果傳遞到當前時刻:

快手視頻在線看,快手視頻在線看怎么看?

為了充分利用不同時刻下的互補信息,我們維護了長度為N的存儲器,來存儲N個過去和未來時刻的超分辨率結果,即

快手視頻在線看,快手視頻在線看怎么看?

快手視頻在線看,快手視頻在線看怎么看?

下圖表示了存儲器的更新過程。

快手視頻在線看,快手視頻在線看怎么看?

△圖4 存儲器的更新過程

這里以第t幀處理后,開始重建第t+1時刻的幀為例。此時,網(wǎng)絡不僅需要更新隱層的特征,還需要更新存儲器中的特征,采用下方公式來更新:

快手視頻在線看,快手視頻在線看怎么看?

效果如何?

一些現(xiàn)有的方法采用不同的數(shù)據(jù)集來訓練網(wǎng)絡,這些數(shù)據(jù)集中的紋理分布不同,對性能也具有一定影響,不利于公平地比較。本文采用了公開的數(shù)據(jù)集Vimeo-90K來訓練網(wǎng)絡,并在該數(shù)據(jù)下復現(xiàn)了部分已有的方法。具體性能比較如圖5所示。

快手視頻在線看,快手視頻在線看怎么看?

△圖5 定量的性能對比

圖5 展示了不同方法在公開數(shù)據(jù)集Vid4,SPMCS,UDM10,REDS4的對比結果。ETDM方法在客觀評價指標PSNR和SSIM上超過了大部分視頻超分辨率方法。圖5表中也記錄了不同方法4倍超分辨率一張320×180圖像的所需時間。

可以發(fā)現(xiàn),ETDM方法超過了大部分基于時間滑動窗的多幀融合算法,如TGA、RBPN和EDVR,也超過了部分基于雙向循環(huán)卷積網(wǎng)絡的方法。值得一提的是,雖然ETDM的主干網(wǎng)絡為單向的隱層傳遞,但它也超過了BasicVSR、GOVSR這類基于雙向卷積網(wǎng)絡的方法。

在使用上,ETDM支持靈活設置所要傳播的未來和過去的結果個數(shù),而并不需要使用整段視頻的所有幀作為輸入,因此具備比雙向網(wǎng)絡結構更靈活的應用能力。

快手視頻在線看,快手視頻在線看怎么看?

△圖6 定性的性能對比

圖6 展示了在公開數(shù)據(jù)集上的定性對比結果,ETDM方法可以產(chǎn)生更豐富的細節(jié)和準確的結構。

下面是一些視頻的對比結果(上:輸入,下:超分辨率后的結果)

快手視頻在線看,快手視頻在線看怎么看?

快手視頻在線看,快手視頻在線看怎么看?

總結

視頻超分辨率的一個重點是時序互補信息的利用方式,業(yè)內多采用基于多幀運動補償和基于遞歸隱狀態(tài)累積的方式分別對低分辨率和高分辨率進行時序建模。

本文重新思考了這個問題,并從新的角度提出了用時序差分來統(tǒng)一低分辨率和高分辨率下的時序建模方法。

時序差分的第一層含義是描述前后幀圖像的像素變化差異,因此在低分辨率下可以用來區(qū)分輸入序列的高變化和低變化的區(qū)域;第二層含義是相鄰兩幀的轉換“橋梁”,因此在高分辨率下可以用于傳播不同時刻的預測結果。進一步,本文將高分辨率下的單時刻轉移擴展為任意時刻的轉移,并存儲了多個時刻的結果來優(yōu)化當前時刻。

本文是快手與大連理工大學賈旭副教授合作的,包括TGA,RSDN,RRN系列視頻超分辨率工作的后續(xù)工作。所提出的ETDM在多個公開數(shù)據(jù)集上取得了不錯的結果,以單向循環(huán)卷積的結構超過了SOTA的EDVR,GOVSR,BasicVSR等方法。

參考文獻:

[1] Tianfan Xue, Baian Chen, Jiajun Wu, Donglai Wei, and William T Freeman. Video enhancement with task-oriented flow. International Journal of Computer Vision, 127(8):1106– 1125, 2019.

[2] Mehdi SM Sajjadi, Raviteja Vemulapalli, and Matthew Brown. Frame-recurrent video super-resolution. In CVPR, 2018.

[3] Xin Tao, Hongyun Gao, Renjie Liao, Jue Wang, and Jiaya Jia. Detail-revealing deep video super-resolution. In ICCV, 2017.

[4] Xintao Wang, Kelvin CK Chan, Ke Yu, Chao Dong, and Chen Change Loy. Edvr: Video restoration with enhanced deformable convolutional networks. In CVPRW, 2019.

[5] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong, and Chen Change Loy. Understanding deformable alignment in video super-resolution. In AAAI, 2021.

[6] Takashi Isobe, Song jiangLi, Xu Jia, Shanxin Yuan, Gregory Slabaugh, Chunjing Xu, Ya-Li Li, Shengjin Wang, and Qi Tian. Video super-resolution with temporal group attention. In CVPR, 2020.

[7] Younghyun Jo, Seoung Wug Oh, Jaeyeon Kang, and Seon Joo Kim. Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation. In CVPR, 2018.

[8] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong, and Chen Change Loy. Basicvsr: The search for essential components in video super-resolution and beyond. In CVPR, 2020.

[9] Takashi Isobe, XuJia, Shuhang Gu, Songjiang Li, Shengjin Wang, and Qi Tian. Video super-resolution with recurrent structure-detail network. In ECCV, 2020.

[10] Dario Fuoli, Martin Danelljan, Radu Timofte, and Luc Van Gool. Fast online video super-resolution with deformable attention pyramid. CoRR, abs/2202.01731, 2022.

[11] Takashi Isobe, Fang Zhu,Xu Jia,and Shengjin Wang. Revisiting temporal modeling for video super-resolution. In BMVC, 2020.

[12] Peng Yi, Zhongyuan Wang, Kui Jiang, Junjun Jiang, Tao Lu, Xin Tian, and Jiayi Ma. Omniscient video super-resolution. In ICCV, 2021.

快手音視頻技術團隊介紹

快手音視頻技術團隊由業(yè)界資深的行業(yè)專家組成,涵蓋了算法、工程、產(chǎn)品等多個領域。自2016年成立以來,團隊建立了業(yè)界領先的短視頻和直播技術體系,保障快手海內外數(shù)億用戶體驗,驅動平臺多元業(yè)務的發(fā)展。

基于豐富多樣的視頻應用場景,快手音視頻技術團隊構建了包括點播云、直播云、RTC等產(chǎn)品體系。通過算法優(yōu)化和工程建設,團隊以用戶體驗為導向,采用數(shù)據(jù)驅動、質量評測及產(chǎn)品化等手段,實現(xiàn)了從視頻制作、云端處理到視頻消費的全鏈路技術創(chuàng)新,打造更為極致的音視頻體驗。

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態(tài)

本文內容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內容, 請發(fā)送郵件至 sumchina520@foxmail.com 舉報,一經(jīng)查實,本站將立刻刪除。
如若轉載,請注明出處:http://www.qjsdgw.cn/127011.html