據雷鋒的《人工智能科學技術評論》報道,谷歌最近與多倫多大學等大學合作發表了一篇論文,提出了一個新的網絡框架變壓器。模型。
眾所周知,在編解碼框架中,主流的序列傳導模型是基于RNN或CNN的,注意機制是連接編解碼器的機制,Google提出的新的框架Transformer完全基于注意機制。
變壓器是用來完成翻譯任務的。實驗表明,該模型性能良好,可并行化,大大縮短了訓練時間。EL在WMT 2014英法翻譯任務中。經過3.5天的8個GPU的訓練,最佳BLEU評分為41.0,訓練成本最低,達到了最佳性能。F數據集和有限數量的數據集。
注意機制是序列模型和傳導模型的結合,允許模型相互依賴而不考慮輸入和輸出序列之間的距離。有時(很少)注意機制與RNN相結合。
編碼器:編碼器有6個完整的棧層,每個棧層有兩個子層,第一層是多頭自關注機制,第二層是簡單的前饋網絡全連接層,每一層都有殘差和歸一化。
解碼器:解碼器也由六個相同的堆棧組成,每個堆棧有三個子層,在代碼堆棧的輸出處充當多頭注意機制。
注意:函數是將Query和一組鍵-值對映射到輸出,因此查詢、鍵、值和輸出都是向量。輸出是值的權重之和,權重由查詢和與值對應的鍵計算。
雷鋒認為,Google的模型在許多翻譯任務中都取得了最好的效果,而其他識別任務中它的推廣模型也取得了很好的效果。研究人員高興地看到,該模型在其他任務中發揮了很好的作用。谷歌計劃研究變壓器的更廣泛使用——其他形式的輸入和輸出,包括圖像、音頻和視頻。



