此「錯(cuò)」并非真的錯(cuò):從四篇經(jīng)典論文入手,理解 Transformer 架構(gòu)圖「錯(cuò)」在何處_當(dāng)前關(guān)注
選自 Ahead of AI
作者:Sebastian Raschka
機(jī)器之心編譯
(資料圖片)
編輯:馬梓文
從四篇論文入手,Sebastian 再談 Transformer 架構(gòu)圖。
前段時(shí)間,一條指出谷歌大腦團(tuán)隊(duì)論文《Attention Is All You Need》中 Transformer 構(gòu)架圖與代碼不一致的推文引發(fā)了大量的討論。
對(duì)于 Sebastian 的這一發(fā)現(xiàn),有人認(rèn)為屬于無(wú)心之過(guò),但同時(shí)也會(huì)令人感到奇怪。畢竟,考慮到 Transformer 論文的流行程度,這個(gè)不一致問題早就應(yīng)該被提及 1000 次。
Sebastian Raschka 在回答網(wǎng)友評(píng)論時(shí)說(shuō),「最最原始」的代碼確實(shí)與架構(gòu)圖一致,但 2017 年提交的代碼版本進(jìn)行了修改,但同時(shí)沒有更新架構(gòu)圖。這也是造成「不一致」討論的根本原因。
隨后,Sebastian 在 Ahead of AI 發(fā)布文章專門講述了為什么最初的 Transformer 構(gòu)架圖與代碼不一致,并引用了多篇論文簡(jiǎn)要說(shuō)明了 Transformer 的發(fā)展變化。
以下為文章原文,讓我們一起看看文章到底講述了什么:幾個(gè)月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,積極的反饋非常鼓舞人心!因此,我添加了一些論文,以保持列表的新鮮感和相關(guān)性。
同時(shí),保持列表簡(jiǎn)明扼要是至關(guān)重要的,這樣大家就可以用合理的時(shí)間就跟上進(jìn)度。還有一些論文,信息量很大,想來(lái)也應(yīng)該包括在內(nèi)。
我想分享四篇有用的論文,從歷史的角度來(lái)理解 Transformer。雖然我只是直接將它們添加到理解大型語(yǔ)言模型的文章中,但我也在這篇文章中單獨(dú)來(lái)分享它們,以便那些之前已經(jīng)閱讀過(guò)理解大型語(yǔ)言模型的人更容易找到它們。
On Layer Normalization in the Transformer Architecture ( 2020 )
雖然下圖(左)的 Transformer 原始圖(https://arxiv.org/abs/1706.03762)是對(duì)原始編碼器 - 解碼器架構(gòu)的有用總結(jié),但該圖有一個(gè)小小的差異。例如,它在殘差塊之間進(jìn)行了層歸一化,這與原始 Transformer 論文附帶的官方 ( 更新后的) 代碼實(shí)現(xiàn)不匹配。下圖(中)所示的變體被稱為 Post-LN Transformer。
Transformer 架構(gòu)論文中的層歸一化表明,Pre-LN 工作得更好,可以解決梯度問題,如下所示。許多體系架構(gòu)在實(shí)踐中采用了這種方法,但它可能導(dǎo)致表征的崩潰。
因此,雖然仍然有關(guān)于使用 Post-LN 或前 Pre-LN 的討論,也有一篇新論文提出了將兩個(gè)一起應(yīng)用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在實(shí)踐中是否有用還有待觀察。
圖注:圖源 https://arxiv.org/abs/1706.03762 ( 左 & 中 ) and https://arxiv.org/abs/2002.04745 ( 右)Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks ( 1991 )
這篇文章推薦給那些對(duì)歷史花絮和早期方法感興趣的人,這些方法基本上類似于現(xiàn)代 Transformer。
例如,在比 Transformer 論文早 25 年的 1991 年,Juergen Schmidhuber 提出了一種遞歸神經(jīng)網(wǎng)絡(luò)的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),稱為 Fast Weight Programmers ( FWP ) 。FWP 方法涉及一個(gè)前饋神經(jīng)網(wǎng)絡(luò),它通過(guò)梯度下降緩慢學(xué)習(xí),來(lái)編程另一個(gè)神經(jīng)網(wǎng)絡(luò)的快速權(quán)值的變化。
這篇博客 ( https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2 ) 將其與現(xiàn)代 Transformer 進(jìn)行類比,如下所示 :
在今天的 Transformer 術(shù)語(yǔ)中,F(xiàn)ROM 和 TO 分別稱為鍵 ( key ) 和值 ( value ) 。應(yīng)用快速網(wǎng)絡(luò)的輸入稱為查詢。本質(zhì)上,查詢由快速權(quán)重矩陣 ( fast weight matrix ) 處理,它是鍵和值的外積之和 ( 忽略歸一化和投影 ) 。由于兩個(gè)網(wǎng)絡(luò)的所有操作都是可微的,我們通過(guò)加法外積或二階張量積獲得了端到端可微主動(dòng)控制的權(quán)值快速變化。因此,慢速網(wǎng)絡(luò)可以通過(guò)梯度下降學(xué)習(xí),在序列處理期間快速修改快速網(wǎng)絡(luò)。這在數(shù)學(xué)上等同于 ( 除了歸一化之外 ) 后來(lái)被稱為具有線性化自注意的 Transformer ( 或線性 Transformer ) 。
正如上文摘錄所提到的,這種方法現(xiàn)在被稱為線性 Transformer 或具有線性化自注意的 Transformer。它們來(lái)自于 2020 年出現(xiàn)在 arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv.org/abs/2009.14794)。
2021 年,論文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明確表明了線性化自注意力和 20 世紀(jì) 90 年代的快速權(quán)重編程器之間的等價(jià)性。
圖源:https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2Universal Language Model Fine-tuning for Text Classification ( 2018 )
這是另一篇從歷史角度來(lái)看非常有趣的論文。它是在原版《Attention Is All You Need》發(fā)布一年后寫的,并沒有涉及 transformer,而是專注于循環(huán)神經(jīng)網(wǎng)絡(luò),但它仍然值得關(guān)注。因?yàn)樗行У靥岢隽祟A(yù)訓(xùn)練語(yǔ)言模型和遷移學(xué)習(xí)的下游任務(wù)。雖然遷移學(xué)習(xí)已經(jīng)在計(jì)算機(jī)視覺中確立,但在自然語(yǔ)言處理 ( NLP ) 領(lǐng)域還沒有普及。ULMFit(https://arxiv.org/abs/1801.06146)是首批表明預(yù)訓(xùn)練語(yǔ)言模型在特定任務(wù)上對(duì)其進(jìn)行微調(diào)后,可以在許多 NLP 任務(wù)中產(chǎn)生 SOTA 結(jié)果的論文之一。
ULMFit 建議的語(yǔ)言模型微調(diào)過(guò)程分為三個(gè)階段 :
1. 在大量的文本語(yǔ)料庫(kù)上訓(xùn)練語(yǔ)言模型;
2. 根據(jù)任務(wù)特定的數(shù)據(jù)對(duì)預(yù)訓(xùn)練的語(yǔ)言模型進(jìn)行微調(diào),使其能夠適應(yīng)文本的特定風(fēng)格和詞匯;
3. 微調(diào)特定任務(wù)數(shù)據(jù)上的分類器,通過(guò)逐步解凍各層來(lái)避免災(zāi)難性遺忘。
在大型語(yǔ)料庫(kù)上訓(xùn)練語(yǔ)言模型,然后在下游任務(wù)上對(duì)其進(jìn)行微調(diào)的這種方法,是基于 Transformer 的模型和基礎(chǔ)模型 ( 如 BERT、GPT-2/3/4、RoBERTa 等 ) 使用的核心方法。
然而,作為 ULMFiT 的關(guān)鍵部分,逐步解凍通常在實(shí)踐中不進(jìn)行,因?yàn)?Transformer 架構(gòu)通常一次性對(duì)所有層進(jìn)行微調(diào)。
Gopher 是一篇特別好的論文(https://arxiv.org/abs/2112.11446),包括大量的分析來(lái)理解 LLM 訓(xùn)練。研究人員在 3000 億個(gè) token 上訓(xùn)練了一個(gè) 80 層的 2800 億參數(shù)模型。其中包括一些有趣的架構(gòu)修改,比如使用 RMSNorm ( 均方根歸一化 ) 而不是 LayerNorm ( 層歸一化 ) 。LayerNorm 和 RMSNorm 都優(yōu)于 BatchNorm,因?yàn)樗鼈儾痪窒抻谂幚泶笮?,也不需要同步,這在批大小較小的分布式設(shè)置中是一個(gè)優(yōu)勢(shì)。RMSNorm 通常被認(rèn)為在更深的體系架構(gòu)中會(huì)穩(wěn)定訓(xùn)練。除了上面這些有趣的花絮之外,本文的主要重點(diǎn)是分析不同規(guī)模下的任務(wù)性能分析。對(duì) 152 個(gè)不同任務(wù)的評(píng)估顯示,增加模型大小對(duì)理解、事實(shí)核查和識(shí)別有毒語(yǔ)言等任務(wù)最有利,而架構(gòu)擴(kuò)展對(duì)與邏輯和數(shù)學(xué)推理相關(guān)的任務(wù)從益處不大。
圖注:圖源 https://arxiv.org/abs/2112.11446原文鏈接:https://magazine.sebastianraschka.com/p/why-the-original-transformer-figure
THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
關(guān)鍵詞:
相關(guān)閱讀
-
此「錯(cuò)」并非真的錯(cuò):從四篇經(jīng)典論文入...
選自AheadofAI作者:SebastianRaschka機(jī)器之心編譯編輯:馬梓文從四篇 -
國(guó)債一天期什么意思?一天期國(guó)債怎么買...
國(guó)債一天期什么意思?就是把國(guó)債抵押出去一天國(guó)債逆回購(gòu)可以理解為一... -
“三湖連珠”!松花江這些美景藏不住了_...
“三湖連珠”!松花江這些美景藏不住了,盛夏,連珠,三湖,松花江,自然景觀 -
消息稱 5 月更新導(dǎo)致三星 Galaxy S2...
IT之家6月13日消息,消息源TarunVats反饋稱,三星GalaxyS21系列手機(jī)在 -
前列腺癌“藏”得深,四個(gè)早期篩查攻略...
“多年尿頻、尿急、尿痛、排尿困難,不是什么大問題,不用次次都檢... -
天天微頭條丨江歌母親:劉鑫不服二審判...
13日,江歌母親江秋蓮@苦咖啡-夏蓮微博發(fā)文稱,其收到山東省高級(jí)人民法 -
安徽宿州市埇橋區(qū)推動(dòng)林業(yè)發(fā)展?構(gòu)建特...
年來(lái),安徽宿州市埇橋區(qū)深挖林業(yè)資源潛力,著力補(bǔ)齊產(chǎn)業(yè)鏈條,全力發(fā)展 -
河南仙佑深化產(chǎn)學(xué)研合作,提高創(chuàng)新能力
近年來(lái),隨著人們健康意識(shí)的提高,各種膏藥產(chǎn)品市場(chǎng)需求不斷增長(zhǎng)。... -
百事通!“熱力圖”清晰顯示中部7個(gè)城市...
“熱力圖”清晰顯示中部7個(gè)城市的人口密度和經(jīng)濟(jì)實(shí)力人口密度和經(jīng)濟(jì)... -
醫(yī)保繳費(fèi)為什么查詢不到個(gè)人應(yīng)繳信息 ...
參保人已經(jīng)按時(shí)繳納醫(yī)保但是個(gè)人賬戶卻查詢不到的原因可能為以下幾種情 -
龍溪沙溪第58屆龍舟景對(duì)戰(zhàn)表出爐!26支...
6月12日上午,由荔灣區(qū)文廣旅體局、荔灣區(qū)龍舟協(xié)會(huì)、荔灣區(qū)海龍街道龍 -
環(huán)球今熱點(diǎn):嵐圖汽車宣布獲6家銀行150...
6月13日,嵐圖汽車舉辦銀企戰(zhàn)略簽約儀式,嵐圖汽車宣布獲中國(guó)工商銀行 -
阿v又餓了_avy 全球最新
1、要打開avy文件,可以使用以下方法:下載并安裝“QQ視頻播放器”... -
突發(fā)追尾事故,均安PTU快速到場(chǎng)解救
珠江商報(bào)訊記者謝意通訊員蘭佳林報(bào)道:近日,在順德均安發(fā)生了一起兩車 -
世界微速訊:學(xué)姐親身分享在順德工作生...
“發(fā)現(xiàn)順德·走進(jìn)高校”云推介活動(dòng)走進(jìn)中南大學(xué)湘雅醫(yī)學(xué)院珠江商報(bào)... -
順德舉辦“安全生產(chǎn)月”媒體開放日活動(dòng)_...
全區(qū)125個(gè)村級(jí)應(yīng)急消防救援站基本實(shí)現(xiàn)“三到位”珠江商報(bào)訊記者趙鵬... -
堆疊修仙怎么獲得蟲谷(蟲谷在云南哪里...
云南蟲谷是影視中虛構(gòu)地名,現(xiàn)實(shí)生活中沒有。云南蟲谷取景地有民族村、 -
中國(guó)減碳黑科技,相當(dāng)于再造10個(gè)塞罕壩...
眾所周知,當(dāng)產(chǎn)品在沒有拔掉電源或者進(jìn)行物理斷電,用電設(shè)備處于待機(jī)的 -
涿州:提供疑似虛假居住證明去執(zhí)法機(jī)構(gòu)...
我國(guó)《民訴法》第21條明確規(guī)定:對(duì)公民提起的民事訴訟,由被告住所... -
天天報(bào)道:文化產(chǎn)業(yè)園 各有新看點(diǎn)
藝術(shù)市集分享會(huì)。智慧山文化創(chuàng)意產(chǎn)業(yè)園供圖正安吉他文化產(chǎn)業(yè)園內(nèi),