亚洲 欧洲 日韩 综合色天使,久久国产Av无码一区二区老太,人妻醉酒被下药迷昏带到诊所 ,亚州老熟女A片AV色欲小说

網(wǎng)上get什么意思(網(wǎng)絡用語get是什么意思啊)

作者丨FightingCV

來源丨FightingCV

編輯丨極市平臺

寫在前面

隨著注意力在機器學習中的普及,包含注意力機制的神經(jīng)結構也在逐漸發(fā)展。但是大多數(shù)人似乎只知道Transformer中的Self-Attention。在文本中,我們來介紹一下Attention機制的“前世今生 ”(即Attention機制的發(fā)展),Attention的發(fā)展主要經(jīng)歷了四個階段:

(1)The Encoder-Decoder Architecture (編-解碼器結構)

(2)The Transformer

(3)Graph Neural Networks (圖神經(jīng)網(wǎng)絡)

(4)Memory-Augmented Neural Networks (增強記憶神經(jīng)網(wǎng)絡)

對啦,關于各種Attention的核心代碼復現(xiàn),我也給大家準備好了,保證深度學習的小白也能看懂,請大家放心食用:

https://github.com/xmu-xiaoma666/External-Attention-pytorch

1. 編-解碼器結構

編解碼器結構被廣泛應用于語言處理中的序列到序列(seq2seq)任務。在語言處理領域,這類任務的例子包括機器翻譯和圖像字幕。最早使用注意力是作為基于 RNN 的編碼器框架的一部分來編碼長輸入句子。因此,注意力在這個架構中得到了最廣泛的應用。

在機器翻譯的上下文中,這樣一個 seq2seq 任務將涉及到將一個輸入序列 i = { a,b,c,< eos > }轉換成一個不同長度的輸出序列 o = { w,x,y,z,< eos > }。對于一個未經(jīng)Attention的基于 RNN 的編解碼器架構,展開每個 RNN 將產(chǎn)生以下圖形:

網(wǎng)上get什么意思(網(wǎng)絡用語get是什么意思?。? src=

在這里,編碼器一次讀取一個單詞的輸入序列,每次更新其內(nèi)部狀態(tài)。當它遇到 < eos > 符號時停止,這表示序列的結束已經(jīng)到達。由編碼器生成的隱藏狀態(tài)實質(zhì)上包含輸入序列的向量表示,然后由解碼器處理。

解碼器一次生成一個單詞的輸出序列,將前一時間步驟(t-1)處的單詞作為輸入,生成輸出序列中的下一個單詞。一個 < eos > 符號在解碼端信號表示解碼過程已經(jīng)結束。

當不同長度和復雜度的序列用固定長度的矢量表示時,編解碼器結構的問題就出現(xiàn)了,這可能導致解碼器丟失重要信息。

為了解決這個問題,一種基于注意力的體系結構在編碼器和解碼器之間引入了一種注意機制。

網(wǎng)上get什么意思(網(wǎng)絡用語get是什么意思啊)

在這里,注意機制(φ)學習一組注意力權重,捕獲編碼向量(v)和解碼器的隱藏狀態(tài)(h)之間的關系,通過編碼器所有隱藏狀態(tài)的加權和生成上下文向量(c)。這樣,解碼器就可以訪問整個輸入序列,從而attend與生成輸出最相關的輸入信息。

2. The Transformer

Transformer的體系結構也實現(xiàn)了編碼器和解碼器,然而,與我們上面討論的體系結構相反,它不依賴于循環(huán)神經(jīng)網(wǎng)絡的使用。Transformer架構不需要任何“循環(huán)”,而是完全依賴于自注意機制。在計算復雜度方面,當序列長度 n 小于表征維數(shù) d 時,自注意層比遞歸層快。

自注意機制依賴于查詢、鍵和值的使用,這些查詢、鍵和值是通過用不同的權重矩陣乘以編碼器對同一輸入序列的表示而生成的。Transformer使用點積(或乘法)注意力,在生成注意力權重的過程中,每個查詢都通過點積操作與鍵數(shù)據(jù)庫匹配。然后將這些權重乘以這些值得到最終的注意力向量。

網(wǎng)上get什么意思(網(wǎng)絡用語get是什么意思?。? src=

直觀地說,由于所有查詢、鍵和值都來自相同的輸入序列,因此自我注意機制捕獲同一序列中不同元素之間的關系,突出顯示那些最相關的元素。

由于Transformer不依賴RNN,通過增加編碼器對每個元素的表示,可以保存序列中每個元素的位置信息。這意味著Transformer結構也可以應用于計算機視覺任務的圖像分類,分割或圖像字幕。

此外,幾個注意力層可以并行地堆疊在一起,這被稱為多頭注意力。每個頭在同一個輸入的不同線性變換下平行工作,然后將頭的輸出concat起來產(chǎn)生最終的注意結果。擁有多頭模型的好處是每個頭可以關注序列的不同元素。

網(wǎng)上get什么意思(網(wǎng)絡用語get是什么意思?。? src=

3. 圖神經(jīng)網(wǎng)絡

圖可以定義為通過連接(或邊)鏈接的一組節(jié)點(或頂點)。圖是一種通用的數(shù)據(jù)結構,非常適合在許多現(xiàn)實場景中組織數(shù)據(jù)的方式。例如,在一個社交網(wǎng)絡中,用戶可以用圖中的節(jié)點來表示,他們與朋友的關系可以用邊來表示。或者一個分子,其中的節(jié)點是原子,邊代表它們之間的化學鍵。對于計算機視覺,我們可以把一幅圖像想象成一個圖形,其中每個像素都是一個節(jié)點,直接連接到它的鄰近像素。

目前流行的圖注意網(wǎng)絡(Graph Attention Networks,GAT) ,它在圖卷積網(wǎng)絡(GCN)中采用一種自注意機制,后者通過在圖形節(jié)點上執(zhí)行卷積來更新狀態(tài)向量。通過加權濾波器對中心節(jié)點和相鄰節(jié)點進行卷積運算,更新中心節(jié)點的表示。GCN 中的濾波器權值可以是固定的或可學習的。

網(wǎng)上get什么意思(網(wǎng)絡用語get是什么意思?。? src=

相比之下,GAT 使用注意力分數(shù)來給相鄰節(jié)點賦權。這些注意力得分的計算過程與前面討論的 seq2seq 任務的計算過程相似: 首先計算兩個相鄰節(jié)點的特征向量之間的對齊得分,然后通過應用 softmax 操作計算注意力得分,最后通過對所有相鄰節(jié)點的特征向量進行加權組合計算每個節(jié)點的輸出特征向量(相當于 seq2seq 任務中的上下文向量)。

一旦生成了最終的輸出,就可以將其用作后續(xù)任務特定層的輸入。可以通過圖解決的任務可以是不同群體之間單個節(jié)點的分類(例如,預測一個人將決定加入幾個俱樂部中的哪一個) ; 或者是單個邊的分類,以確定兩個節(jié)點之間是否存在邊(例如,預測一個社交網(wǎng)絡中的兩個人是否可能是朋友) ; 或者甚至是完整圖表的分類(例如,預測一個分子是否有毒)。

4. 增強記憶神經(jīng)網(wǎng)絡

在我們已經(jīng)回顧過的基于注意力的編碼器-解碼器結構中,編碼輸入序列的向量集可以看作是外部存儲器,編碼器寫入它,解碼器讀取它。但是,由于編碼器只能寫入這個存儲器,而解碼器只能讀取,因此會出現(xiàn)一個限制。

記憶增強神經(jīng)網(wǎng)絡(Memory-Augmented Neural Networks,MANNs)就是針對這一缺陷而提出的新算法。神經(jīng)圖靈機(NTM)是一種類型的 MANN。它由一個神經(jīng)網(wǎng)絡控制器組成,該控制器接受輸入產(chǎn)生輸出,并對存儲器執(zhí)行讀寫操作。

網(wǎng)上get什么意思(網(wǎng)絡用語get是什么意思?。? src=

讀取頭(Read Head)執(zhí)行的操作類似于用于 seq2seq 任務的注意機制,其中注意力權重表示所考慮的向量在形成輸出中的重要性。讀取頭總是讀取完整的內(nèi)存矩陣,但它是通過注意不同強度的不同內(nèi)存向量來完成的。

然后,讀取操作的輸出由內(nèi)存向量的加權和定義。寫頭(Write Head)根據(jù)注意力和擦除向量中的值擦除內(nèi)存位置,并通過添加向量寫入信息。

人工神經(jīng)網(wǎng)絡應用的例子包括問答和聊天機器人,其中外部存儲器存儲了大量序列(或事實)數(shù)據(jù)庫,神經(jīng)網(wǎng)絡利用這些數(shù)據(jù)。注意力機制的作用在從數(shù)據(jù)庫中選擇與手頭任務相關性更強的事實方面是至關重要的。

本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 sumchina520@foxmail.com 舉報,一經(jīng)查實,本站將立刻刪除。
如若轉載,請注明出處:http://www.qjsdgw.cn/88872.html