為什麼說 Transformer 就是圖神經網絡？

2020-03-05 19:20:54 CSDN

作者 | Chaitanya Joshi

譯者 | Kolen

出品 | AI科技大本營（ID:rgznai100）

前言

有些工程師朋友經常問我這樣一個問題：“圖深度學習聽起來很棒，但是現在是否有非常成功的商業案例？是否已經在實際應用中部署？”

除了那些顯而易見的案例，比如Pinterest、阿里巴巴和Twitter公司部署的推薦系統，一個稍有細微差別的成功案例就是Transformer架構的實現，它在NLP行業引起了軒然大波。

通過這篇文章，我想建立起圖神經網絡（GNNs）和Transformers之間的聯繫。具體來說，我將首先介紹NLP和GNN領域中模型架構的基本原理，然後使用公式和圖表來闡述兩者之間的聯繫，最後將討論如何讓兩者協同運作來推動這方面的研究進展。

我們先來談談模型架構的目的——表示學習。

NLP的表示學習

從一個較高的層次來分析，幾乎所有的神經網絡結構都將輸入數據表示為向量（vectors）或者嵌入（embeddings）的形式，從而對數據中有用的統計和語義信息進行編碼。這些潛在或隱藏的表示方法可以用於執行一些有用的任務，例如對圖像進行分類或翻譯句子。其中，神經網絡通過接收反饋（通常是通過誤差（error）/損失（loss）函數）來學習如何構建越來越好的表示方法。

在自然語言處理（NLP）中，按照傳統方式，人們習慣將遞歸神經網絡（RNNs）以照序列的方式（即一個時間步對應一個單詞）來構建句子中每個單詞的表示。直觀地說，我們可以把RNN層想象成一個傳送帶，上面的字從左到右進行自迴歸處理。最後，我們得到句子中每個單詞的一個隱藏特徵，並將其傳遞到下一個RNN層或者用於我們選擇的NLP任務。

Transformers最初是用於機器翻譯領域，但是現在已經逐漸取代了主流NLP中的RNNs。該架構採用了一種全新的表示學習方法：完全拋棄了遞歸的方法，Transformers使用注意力機制構建每個詞的特徵，從而找出句子中所有其他單詞對上述單詞的重要性。理解了這一關鍵點我們就能明白，單詞的更新特徵僅僅是所有單詞特徵的線性變換之和，這些特徵是根據它們的重要性進行加權。

早在2017年，這個想法聽起來就非常激進，因為NLP界已經習慣了使用RNN處理文本的序列（每次一個單詞）的風格。這篇論文的標題可能是火上澆油！

Yannic Kilcher為此做了一個出色的視頻概述。

解析Transformer

讓我們通過將上一節內容轉述成數學符號和向量的語言來加深對這個架構的認識。如下所示，我們將句子

中第i個詞的隱藏特徵h從

層更新到

層：

其中，

表示句子中的詞彙集，而

是可以學習到的線性權重（分別表示注意力計算中的Query, Key 和 Value）。句子中的每個單詞並行執行注意力機制，從而可以一次性獲得它們已更新的特徵——這是Transformer相對RNNs的另一個加分點，它使得模型能夠逐字更新特徵。

我們可以通過下面這張流程圖來更好地理解注意力機制：

輸入詞彙特徵和句子中其他詞彙集為什麼說 Transformer 就是圖神經網絡？，我們使用點積運算來計算出每對

的注意力權重，接著對所有的進行softmax運算。最後，把所有的為什麼說 Transformer 就是圖神經網絡？

相對應的權重累加得到單詞i更新後的詞彙特徵

。句子中的每個單詞都會並行地經歷相同的流程來更新其特徵。

多頭注意力機制

事實證明，要讓這種點積注意力機制起作用是很難的——如果隨機初始化處理得不好會使得整個學習過程失去穩定性。我們可以通過並行執行多個注意力“頭”並將結果連接起來（現在每個注意力頭都有單獨的可學習權重）來克服這個問題：

其中，

是第k個注意力頭的可學習的權重，而

是一個向下的投影，用以匹配跨層的

和的尺寸。

通過觀察上一層中隱藏特徵的不同的變換過程以及方面，多頭機制允許注意力機制從本質上“規避風險”。關於這點，我們將在後面詳細討論。

尺度問題和前向傳播子層

促使形成最終形態的Transformer結構的關鍵問題是，注意機制之後的詞的特徵可能在不同的尺度或重要性上：（1）這可能是由於某些詞在將其他詞的特徵累加時具有非常集中或非常分散的注意力權重。（2）在單個特徵/向量輸入級別，跨多個注意力頭（每個可能會以不同的比例輸出值）進行級聯可以導致最終向量的輸入具有一個大範圍的值。遵循傳統的機器學習思路，在上述流程中增加一個歸一化層似乎是一個合理的選擇。

Transformers使用LayerNorm克服了問題（2），LayerNorm在特徵層級上進行歸一化並學習一種仿射變換。此外，通過求特徵維度的平方根來縮放點積注意力有助於抵消問題（1）。

最後，作者提出了控制尺度問題的另一個“技巧”：具有特殊結構的考慮位置的雙層MLP。在多頭注意力之後，他們通過一個可學習的權重將投影到一個更高的維度，在該維度中，經過ReLU非線性變換，然後投影回其原始維度，然後再進行另一個歸一化操作：

說實話，我不確定超參數化前饋子層背後的確切理由是什麼，似乎也沒有人對此提出疑問！我認為LayerNorm和縮放的點積不能完全解決突出的問題，因此大型MLP是一種可以相互獨立地重新縮放特徵向量的手段。

Transformer層的最終形態如下所示：

Transformer架構也非常適合非常深的網絡，使NLP界能夠在模型參數和擴展數據這兩方面進行延伸。每個多頭注意力子層和前饋子層的輸入和輸出之間的殘差連接是堆疊Transformer層的關鍵（但為了清楚起見，在上圖中省略了）。

GNNs構建圖的表示

我們暫時不討論NLP。

圖神經網絡（GNNs）或圖卷積網絡（GCNs）在圖數據中建立節點和邊的表示。它們是通過鄰域聚合（或消息傳遞）來實現的，在鄰域聚合中，每個節點從其鄰域收集特徵，以更新其周圍的局部圖結構表示。通過堆疊多個GNN層使得該模型可以將每個節點的特徵傳播到整個圖中，從其鄰居傳播到鄰居的鄰居，依此類推。

以這個表情符號社交網絡為例：由GNN產生的節點特徵可用於預測性任務，例如識別最有影響力的成員或提出潛在的聯繫。

在他們最基本的形式中，GNNs通過以下方法來更新節點i在層的隱藏層特徵h（例如，），也就是先將節點自身的特徵和每個鄰居節點

特徵

的聚合相累加，然後再整體做一個非線性變換，如下：

其中

是GNN層的可學習的權重矩陣，而

是一個非線性變換，例如ReLU。在上述例子中，N () ={ , , , }。鄰域節點

上的求和可以被其他輸入大小不變的聚合函數代替，例如簡單的均值/最大值函數或其他更強大的函數（如通過注意機制的加權和）。

這聽起來熟悉嗎？

也許這樣一條流程可以幫助建立連接：

如果我們要執行多個並行的鄰域聚合頭，並且用注意力機制（即加權和）替換領域上的求和，我們將獲得圖注意力網絡（GAT）。加上歸一化和前饋MLP，瞧，我們就有了Graph Transformer。

句子就是由詞全連接而成的圖

為了使連接更加清晰，可以將一個句子看作一個完全連接的圖，其中每個單詞都連接到其他每個單詞。現在，我們可以使用GNN來為圖（句子）中的每個節點（單詞）構建特徵，然後我們可以使用它來執行NLP任務。

廣義上來講，這就是Transformers正在做的事情：Transformers是以多頭注意力作為鄰聚合函數的GNNs。標準GNNs從其局部鄰域節點聚合特徵，而NLP的Transformers將整個句子視為局部鄰域，在每個層聚合來自每個單詞

的特徵。

重要的是，各種特定於問題的技巧（如位置編碼、因果/掩碼聚合、學習率表和大量的預訓練）對於Transformers的成功至關重要，但在GNN界中卻很少出現。同時，從GNN的角度看Transformers可以啟發我們擺脫模型結構中的許多花哨的玩意。

可以從Transformers和GNN中學到什麼？

現在我們已經在Transformers和GNN之間建立了聯繫，接著讓我們來探討一些新的問題......

8.1 全連接圖是NLP的最佳輸入格式嗎？

在統計NLP和ML之前，Noam Chomsky等語言學家致力於發展語言結構的最新理論，如語法樹/圖。Tree LSTMs已經嘗試過這一點，但是也許Transformers/GNNs是可以讓語言理論和統計NLP的領域結合得更加緊密的更好的架構？

8.2 如何學習到長期依賴？

完全連通圖使得學習詞與詞之間的非常長期的依賴關係變得非常困難，這是完全連通圖的另一個問題。這僅僅是因為圖中的邊數與節點數成二次平方關係，即在n個單詞的句子中，Transformer/GNN將在n^2對單詞上進行計算。如果n很大，那將會是一個非常棘手的問題。

NLP界對長序列和依賴性問題的看法很有意思：例如，使注意力機制在輸入大小方面稀疏或自適應，在每一層中添加遞歸或壓縮，以及使用對局部性敏感的哈希法進行有效的注意，這些都是優化Transformers有希望的新想法。

有趣的是，還可以看到一些GNN界的想法被混入其中，例如，用於句子圖稀疏化的二進制分區似乎是另一種令人興奮的方法。

8.3 Transformers在學習神經網絡的句法嗎？

NLP界有幾篇關於Transformers可能學到什麼的有趣論文。其基本前提是，對句子中的所有詞對使用注意力機制（目的是確定哪些詞對最有趣），可以讓Transformers學習特定任務句法之類的東西。

多頭注意力中的不同頭也可能“關注”不同的句法屬性。

從圖的角度來看，通過在完全圖上使用GNN，我們能否從GNN在每一層執行鄰域聚合的方法中恢復最重要的邊線及其可能帶來的影響？我還不太相信這種觀點。

8.4 為什麼要用多頭注意力？為什麼要用注意力機制？

我更贊同多頭機制的優化觀點——擁有多個注意力可以改進學習，克服不好的隨機初始化。例如，這些論文表明，Transformers頭可以在訓練後“修剪”或“刪除”，並且不會產生重大的性能影響。

多頭鄰聚合機制在GNNs中也被證明是有效的，例如在GAT使用相同的多頭注意力，MoNet使用多個高斯核來聚合特徵。雖然多頭技巧是為了穩定注意力機制而發明的，但它能否成為提煉出額外模型性能的標準？

相反，具有簡單聚合函數（如sum或max）的GNNs不需要多個聚合頭來維持穩定的訓練。如果我們不需要計算句子中每個詞對之間的成對兼容性，對Transformers來說不是很好嗎？

Transformers能從拋棄注意力中獲益嗎？Yann Dauphin和合作者最近的工作提出了另一種ConvNet架構。Transformers也可能最終會做一些類似於ConvNets的事情。

8.5 為什麼Transformers這麼難訓練？

閱讀新的Transformer論文讓我覺得，在確定最佳學習率表、預熱策略和衰減設置時，訓練這些模型需要一些類似於黑魔法的東西。這可能僅僅是因為模型太大，而且所研究的NLP任務非常具有挑戰性。

但是最近的結果表明，這也可能是由於結構中歸一化和殘差連接的特定組合導致的。

在這一點上我很在意，但是也讓我感到懷疑：我們真的需要代價昂貴的成對的多頭注意力結構，超參數化的MLP子層以及複雜的學習計劃嗎？

我們真的需要具有大量碳足跡的（譯者注：有人提出現在訓練一個模型相當於5輛汽車一天的排碳量）大規模模型嗎？

具有良好歸納偏差的架構難道不容易訓練嗎？

原文鏈接：https://dwz.cn/eE9kZK6q

本文為 CSDN 翻譯，轉載請註明來源出處。

分享到:

閱讀更多 CSDN 的文章

關鍵字: 合作者神經網絡推薦技術

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"