03.04 ISSCC 2020年論文解析:硅光與電路集成

本期ISSCC論文解讀有幸邀請到中科院半導體所的祁楠教授。

祁楠師兄博士畢業於清華大學微電子所,並隨後在美國的高校、企業實驗室工作,主要研究光通信電路和硅光電集成芯片,學術界和工業界的經驗都非常豐富。目前他的課題組跨光、電兩個領域,主要圍繞CMOS硅基光電集成、高速通信電路等芯片開展研究,並在包括固態電路領域的CICC、RFIC、ASSCC、JSSC和光通信領域OFC、JSTQE等會議、期刊中發表多篇論文。這次祁楠師兄不僅在百忙之中抽出時間做了論文解讀,還對硅光的應用背景、研究難點、發展趨勢做了大量延申討論。六千字的雄文,乾貨滿滿,不管是對硅光有興趣,還是正在從事這方面的研究,都值得靜下心來好好閱讀多遍。閒話少說,我們來看正文。

(此文有6219字)

各位朋友大家好,本人學生時代做過模擬和射頻電路,畢業後接觸到光通信電路,並恰趕上硅基光電子(Silicon Photonics)迅速發展的快車。借最近宅在家裡的難得機會,通過賈教授的平臺和大家進行交流。

目的很簡單,讓做電路的朋友瞭解光通信這個快速發展的方向,並向做光的朋友“推銷”光電集成將帶來的巨大機遇。我們課題組期待與志同道合的業界朋友進行合作,並歡迎感興趣的同學們積極報考和加入。另外,我在科學院大學的秋季本科《非線性電路》和春季研究生《光電集成芯片中的高速電路設計》的課程都會講授該方面內容。

本期與大家分享的論文來自Intel,作者也是筆者的朋友(敬稱“昊總”),本篇論文是典型的硅光子與電路集成之作,也是作者及其公司長期積累的方向。

1、應用背景

數據中心的互連帶寬需求飛速增長,雖然目前產品主流是100G(4x25G)光模塊,但國際範圍都緊盯著400G開展研究,其中單波長速率期望達到100Gb/s。這裡需要說明的是,光通信系統中還有另一維度波長(類似於無線通信載波頻率),由於長距離通信常採取波分複用同一物理信道,人們通常用“單波長”來對應電芯片中的單通道。考慮到本文主要講電路,我們暫且簡單稱之為“單通道速率”吧。

單路速度的提升引入越來越大的功耗、串擾和散熱方面問題。我們看下圖,傳統的plugable光模塊一般都放在服務器背板邊沿,服務器Payload主芯片(xPU、switch、FPGA等)需要先走一長段背板線才能到達。在單路100Gb/s速率下通常需要n多tap的FFE、DFE電路均衡走線的高頻損耗。大家不難想象,僅僅是把數據走到光口,可能上百mW功耗就已燒掉,更別說多路並行的總能耗和串擾了。另外,密密麻麻一排光模塊堵在板邊沿,服務器內風路不暢,散熱也成了大問題。

如果把每個光模塊做小,並圍繞服務器主芯片就近放置,上述長走線問題就有望大幅緩解

。這是目前國際範圍的發展趨勢——共封裝(co-packaged)板載光模塊(On-board optics),我們形象的稱之為“芯片出光”。Intel擅長做chiplet(詳見session-8),幾個裸片封到一起,再罩個蓋子,外表看就像一個直接以光信號通信的magic chip。如下圖所示,這種情況下光模塊端的電路也可簡化:節省掉(或使用輕度的)均衡與時鐘數據恢復(CDR),並降低接收端靈敏度需求。當然,此發展趨勢還要平衡舊有商業利益的問題,其大規模產業化還有待觀望。

2、光電協同設計

光模塊小型化最大的挑戰是提高芯片集成度和降低功耗,而硅基光電子(Silicon Photonics)在CMOS兼容的襯底上同時製備光器件和高速電路,是實現此目標的有潛力方案。說句題外話,我們這裡強調“CMOS兼容”,是因為至今硅光技術還未實質的將光電單片集成推進到實用化。一方面光器件大部分性能仍被III-V族完爆;另一方面,也是最重要的,光器件尺寸與深亞微米CMOS晶體管不在同一量級,目前主流應用場景中單片化成本上不划算。本文選擇了微米量級的硅光微環諧振型調製器(Micro-ring Resonator Modulator, MRM)作為上述問題的突破口,原因有三:首先尺寸小,相比於馬赫-贊得調製器(Mach-ZehnderModulator, MZM)動輒2-3mm的長度,它的尺寸下降兩個量級,直徑大概只有20um左右,為將來光電單片化打開大門;其次好驅動,相比於MZM等效50-ohm的阻抗,MRM僅相當於PAD大小的一個電容負載,使得CMOS反相器直接驅動成為可能;
再次並行度好,多個MRM並行集成,可實現天然的波分服用(WDM),無需額外的透鏡芯片。 簡單科普一下MRM的原理,光波信號在芯片上的“導線”稱為波導,在硅光工藝中就是用SiO2包裹著純Si做一個“管道”:光在裡面透射不出去,只能直線或者來回反射著向前傳播。我們在波導總線旁邊很近的地方(幾微米,但不接觸),放置額外的閉合環形波導,總線上的光能量將洩漏到環中,使得總線最終輸出能量減小。這裡一個有意思的特性是,當某波長的光沿微環走一圈恰是其波長的整數倍時,大部分能量都將困到環中,不再沿總線傳輸了。而如果人為改變加在環形波導中的電場,光波的傳播速度會改變,那麼它走一圈的時間會改變,即環形波導的諧振波長將改變。利用這一特性,MRM就類似於一個高Q值的“坑狀”帶陷(notch)濾波器,濾除掉極小波長範圍的光。而對於固定波長的信號,我們在MRM波導上施加交變電壓,就能造成其諧振波長往復平移,進而產生對總線光信號強度的調製效果。再進一步,如果我們沿總線放置多個微環,並且設置它們具有不同直徑,就能得到多個分離諧振波長,這就使得單信道的波分複用成為可能。當然,在一定範圍內容納更多波長,實現密集波分複用(DWDM),帶陷濾波的“坑”就必須足夠窄和深。

在PAM4調製下,MRM調製器最關鍵的三項參數,也是其驅動電路最大的設計挑戰,是調製效率、線性度和波長穩定度。下面我們力求形象的逐個進行說明,

(1)調製效率為了調製後的‘0’‘1’有足夠區分度(稱為消光比

ER,我們希望MRM的波長選擇對帶內/帶外信號抑制度足夠大。由於調製是靠平移微環的諧振波長實現的,上述語句就翻譯成調製產生的諧振波長移動足夠大。為此,我們要麼做一個高效率MRM,在低電壓幅度驅動下就能實現足夠大的波長移動;要麼做一個電壓擺幅高的驅動芯片,造成光波傳輸速度的改變非常大。

本文中Intel做的MRM顯然比較牛,詳見他們2018年OFC的論文[1],其結果是僅需要差分2.4Vpp的驅動電壓,就可產生>5dB消光比,還能有50GHz的調製帶寬。這和文章作者2015年ISSCC文章中的MRM相比,所需幅度降低近一半,帶寬反而提升近一倍。本文則關注於電路技術,旨在實現大擺幅的驅動電壓。具體來說,就是要用單管耐壓0.9V的28nm CMOS電路,實現高速3Vpp的輸出擺幅。

(2)線性度首先,MRM存在靜態非線性,如下圖即便driver輸出理想線性PAM4波形,電光轉換後也將產生明顯的非線性“大小眼”;

其次,耗盡型MRM存在動態非線性,驅動電壓大範圍變化導致其等效電容受調製,造成驅動信號在邏輯高和低處帶寬不相等。仔細觀察下圖,帶寬不足的程度還與碼型相關:短“0”的帶寬不足最明顯,因此均衡時需要針對碼型提供不同的均衡強度。本文的主要貢獻在於此處,即提出了非線性預失真(NL-PD)和非線性FFE(NL-FFE)相結合的均衡方法,抵消上述兩種非線性。

(3)波長穩定性

MRM到目前為止最大的技術難題是其波長的穩定和調節。前文我們提到,為提高輸出光信號消光比、支持DWDM,MRM的濾波特性陷波Notch必須非常窄,Q值高達上千。在此情況下,工藝偏差、溫度變化都將造成顯著的諧振波長漂移,必須搭建光電閉環的調節系統再出現PVT偏差時將波長穩定在確定數值。本文的主要貢獻也在於,提出改進型的波長自動穩定技術,監控並實時調節MRM波長。

3、電路和系統亮點

本文內容較多,全部平敘一遍可能導致讀者丟掉重點;因此,我們僅對應上面提到的三項參數,向大家分別解讀亮點工作,而剩餘細節電路則留給感興趣者深入研讀。

(1)高速大擺幅輸出級為實現足夠大的消光比,我們需要在高速下提供3Vpp的輸出擺幅。如下圖,本文Driver由30個結構相同和尺寸不同的單元並聯實現:每個單元內,差分信號到達輸出級之前分成工作在0~VDD和VDD~2*VDD的兩條並行之路:前者在輸出邏輯高時,負責將負載電容上拉到2*VDD(2.2V);後者則負責在邏輯低時,將負載電容洩放至0。這相當於把2.2V電壓擺幅均攤到兩個串聯的PMOS(或NMOS),實現了2倍於單電壓域的電壓擺幅。

與此同時,類似於SST型電壓driver,每個driver單元的輸出阻抗由晶體管導通電阻、額外串聯的電阻RL構成,用來吸收封裝後信道不連續導致的反射。文中作者聲稱額外的RT用來提升線性度,筆者猜測driver輸出阻抗隨PAM4調製變化較大,因此額外並聯固定數值RT可緩解其波動,其代價可能是充放電速度和輸出擺幅的降低。SST driver的阻抗控制這裡不再展開,感興趣的朋友借鑑一下相關SERDES論文。

考慮到driver與硅光MRM的對接,首先,調製器PN

結(也就是差分兩端)之間需要一個反向偏置,因此driver和MRM通過電容耦合,陰極和陽極分別通過電阻外加偏壓;其次,MRM的容性負載導致driver輸出帶寬不足,本論文通過series-peaking電感的方式,將核心電路和負載大電容隔離,獲得32GHz左右的帶寬提升。

(2)非線性驅動與均衡這部分比較複雜,我們看最終目標:為抵消MRM兩種非線性,driver需要將理想PAM4波形(藍色),預失真成特定形狀(紅色),以獲得線性度改善後的光眼圖(綠色)。從上向下觀察目標眼圖形狀,其眼高依次變化(預失真比例係數αn),均衡的強度也各不相同(預失真比例係數βn);PAM4每個眼皮處都呈現四種不同預加重強度,並取決於前一UI的數據碼型。這裡筆者認為紅色曲線的繪製,在均衡強度邏輯上稍有點錯亂,有待讀者根據自己理解進行判斷。

為達到上述效果,作者把driver主要電路做成結構相同、尺寸各不相同的30個slice,其中21個一倍尺寸(1x)單元給線性雙抽頭(2-tap)PAM4調製,(4*1x+1*0.5x)單元給非線性預失真,(1*1x+2*0.5x+1*0.25x)給非線性均衡。這裡要注意的是,每個slice中是28Gb/s NRZ的CMOS信號,只有在最終相加節點才產生56GBaud/sPAM4信號;每個slice中都有獨立的查找表(LUT)、串化器(2:1)和SSTdriver。

為了在對應不同數據電平(A/B/C/D)的情況下,打開對應數目的driver cell單元,本文將上述30個slice按照溫度計碼方式進行排列組合。這裡有點繞,我們先看非線性預失真的編碼方法:線性情況下顯然為等間隔為8的四個幅值(24/16/8/0);而為了抵消非線性“大小眼”,上述碼型預失真為(24/13/5/0)。具體電路實現中,則使用PAM4的2-bit輸入信號(MSB/LSB),直接選中四個電平所對應的溫度計編碼(24/13/5/0)進行輸出。每位數據的LUT具體電路如下圖所示,其核心思路是最小化對輸出節點充放電時間,減少關鍵路徑上串聯的晶體管個數,因為DUT都運行在28Gb/s。

上述思路同樣可使用在FFE中,比如在NRZ調製時可根據數據流的相鄰2個UI數據d1、d0,去選擇當前碼型轉換時main-tap和post-tap分別打開的slice的數量,實現與碼型相關的均衡。擴展到PAM4調製情況,則應當產生(1*1x+2*0.5x+1*0.25x)四種slice的打開與否的控制信號,這在下圖中分別對應了x4、x2和x1的四個LUT。具體的編碼對應關係我們不再細講,但需要注意的是,這裡的求和DAC指的是最終driver輸出節點,而並不是在DUT的輸出就進行了求和處理,因為在輸出級之前信號通路上傳輸的仍是NRZ格式。

(3)波長自動調節MRM的諧振波長對溫度變化非常敏感,文中提到約為10GHz/K;考慮到諧振時Q值非常高,閉環實時調節是穩定工作所必須的。常用的波長調節方法是從MRM波導總線分出5-10%的光功率,反饋到一個集成在調製器上的監控探測器(monitoring PD);該功率轉換成電流作為監控對象。波長調節則試圖使此平均光功率達到最大值,以實現輸入信號波長對準到調製器自諧振波長。微環的波長控制常採用加熱波導的方式,即在環形波導附近放置電阻並施加電流,利用DAC調節此電流而控制實時加熱功率,將MRM諧振波長穩定在期望值附近。上述過程中,幾個關鍵參數需要考慮:調節精度、調節範圍、硬件代價、能耗效率和反饋調節的可信度。

傳統的波長閉環監控,採用低帶寬的光電轉換和放大器件,僅觀測平均光功率的絕對值進行調節。它的問題在於觀測值的變化可能來自入射光功率、信號碼型、MRM濾波等多個因素,據此調節的結果可信度可能較低。本文對此進行改進,同時將進入和通過MRM的平均光功率拾取出來,監測其相對數值變化,更大的差值意味著更多的功率trap在微環中,即諧振波長更接近輸入信號波長。另外,觀測量轉化成兩路徑輸入I-V增益的比R1/R2,避免了與絕對數值(片上很難實現)相比,提高了反饋調節的置信度。這裡筆者有個小疑問,兩次MPD的光功率拾取,必然造成更大的光功率分流,這就對整個TX光路損耗提出更高的要求,不知道本文實際的鏈路開銷如何。

另外,為了同時實現大調節範圍和精細調節步長,我們需要較大的反饋系統線性動態範圍,本文是通過兩部動作實現:首先,使用sigma-delta調製器的方式實現12-bit的電流DAC;其次,將光功率通過MOS管平方率特性向電流量綱做線性映射。兩者結合實現50mW功率範圍,14uW的調節步長。

4、測試結果討論

首先,我們來看看本文實現的完整光電集成發射機系統。得益於Intel強大的集成能力,本文的電芯片EIC倒扣在一個大的硅光芯片PIC上,並通過Cupper Pillar進行電氣連接;同時III-V族激光器通過混合異質集成的方式,生長在同一個硅光芯片上;上述作為承載體的硅光芯片在通過平面金線的方式,集成到一個PCB基板上。這種集成方案的優勢是:

(1)高速信號僅通過cupper pillar出現在EIC和PIC兩芯片間,電源和低速信號通過PIC連接至PCB,在112Gb/s速率信號完整性好;

(2)激光器直接出光至片上波導,與外置激光器方案相比節省了輸入光纖耦合的次數,有望提高整體光鏈路的信號插入損耗裕量。上述兩芯片構成一個(目測)僅有數平方毫米的小型化共封裝光電引擎,適用於本文開頭提到的板載光模塊。

文中兩種均衡的效果在上圖中得到驗證,通過NL-PD有效改善了“大小眼”問題;與之相比在-0.7V下NL-FFE的均衡效果似乎沒那麼明顯,這主要是因為反向偏置太低,MRM器件結電容導致帶寬不足,而提高FFE強度帶來邏輯低時overshoot比較明顯。

為了得到更好看一些的眼圖,作者提高了反向偏置,並且優化了均衡和波長調節;筆者這裡認為提高偏置的影響可能是主要的,估計也相應降低了FFE強度。這樣一來眼圖質量得到明顯提升。關於TDECQ是什麼意思呢?筆者在這裡僅簡單的介紹一下,想象我們的TX芯片發射PAM4光信號,與此同時還有一個理想的TX也發射相同的PAM4信號,假如用相同的光電接收機去處理並實現相同的BER目標,顯然我們的芯片需要該接收機“費更大的勁”,這轉換成dB量綱就是上述的TDECQ;而實際情況下,測試儀器是通過疊加不斷增大的噪聲來尋找上述數值的。顯然TDECQ越小,說明我們的TX越接近於一個理想的golden TX,性能也就越好。

最後,我們來看看波長調節帶來的效果:實測在28°C到55°C下都能保證TDECQ不會惡化0.5dB以上,這是一個很有效且直觀的數據支撐;而開環情況下,40°C左右基本信號質量就差到不可用了。波長自動調節是微環諧振型光電收發機,走出實驗室實現未來量產化,最重要的技術。當然,波長穩定目前還有許多未解決的問題,例如大芯片中的熱串擾、調節範圍、響應速度、DWDM多波長情況下的調節邏輯等,這些也都是讀者可以深入探索的潛在方向。

4、總結

面對數據中心,尤其是Switch等應用中對於高密度、低功耗、高帶寬光模塊的需求,光電接口仍是整個鏈路的性能瓶頸;微環MRM收發機的光器件尺寸小、驅動能耗低,恰能解決上述問題。MRM光器件本身呈電容性負載,便於深亞微米CMOS工藝下與數字電路的集成,是最有可能實現光電單片集成的方案之一。然而長期以來,國內慣性思維認為該方案波長穩定問題難以跨越,距離實用化遙遙無期,也不願投入過多精力開展研究;而已開展的研究多集中於單獨微環光器件的優化,與電路集成方面涉獵較少。

筆者在這裡認為,在當前技術發展的趨勢看,我們應跳出傳統光電分家的視角來看待此問題。硅光子技術最大的特點是與CMOS電路的兼容,我們應充分放大此優勢,藉助大規模CMOS電路強大的處理能力解決上述問題。以近期關注度較高的創業公司Ayar Labs為例,通過單片光電集成,數據傳輸的能耗效率已降低到標杆性的1pJ/bit以下,而單片總帶寬也達到1.2T水平,實現了上述技術的初步產業化。筆者相信微米級的硅基光電集成,為後摩爾時代集成電路的發展,探索出一條嶄新的、前景可期的道路。最後,如果大家問我Ayar Labs做的究竟怎麼樣?我借用“昊總”先前私下的交流:“非常牛”。

感謝大家閱讀本期對於ISSCC2012-1論文的解讀,接下來我們會繼續和大家分享更多的光電集成方向的優秀論文。祝大家早日發上ISSCC。

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第2238期內容,歡迎關注。

★華為撬動基站PA市場,為GaN再添一把火

★我對國產芯片的一些看法

★汽車廠商的芯片佈局

“芯”系疫情|ISSCC 2020|日韓芯片|華為|存儲|氮化鎵|高通|康佳