ISSCC 2020年论文解析：硅光与电路集成其它頭條網

ISSCC 2020年论文解析：硅光与电路集成

本期ISSCC论文解读有幸邀请到中科院半导体所的祁楠教授。祁楠师兄博士毕业于清华大学微电子所，并随后在美国的高校、企业实验室工作，主要研究光通信电路和硅光电集成芯片，学术界和工业界的经验都非常丰富。目前他的课题组跨光、电两个领域，主要围绕CMOS硅基光电集成、高速通信电路等芯片开展研究，并在包括固态电路领域的CICC、RFIC、ASSCC、JSSC和光通信领域OFC、JSTQE等会议、期刊中发表多篇论文。这次祁楠师兄不仅在百忙之中抽出时间做了论文解读，还对硅光的应用背景、研究难点、发展趋势做了大量延申讨论。六千字的雄文，干货满满，不管是对硅光有兴趣，还是正在从事这方面的研究，都值得静下心来好好阅读多遍。闲话少说，我们来看正文。

(此文有6219字)

▼

各位朋友大家好，本人学生时代做过模拟和射频电路，毕业后接触到光通信电路，并恰赶上硅基光电子（Silicon Photonics）迅速发展的快车。借最近宅在家里的难得机会，通过贾教授的平台和大家进行交流。目的很简单，让做电路的朋友了解光通信这个快速发展的方向，并向做光的朋友“推销”光电集成将带来的巨大机遇。我们课题组期待与志同道合的业界朋友进行合作，并欢迎感兴趣的同学们积极报考和加入。另外，我在科学院大学的秋季本科《非线性电路》和春季研究生《光电集成芯片中的高速电路设计》的课程都会讲授该方面内容。

本期与大家分享的论文来自Intel，作者也是笔者的朋友（敬称“昊总”），本篇论文是典型的硅光子与电路集成之作，也是作者及其公司长期积累的方向。

1、应用背景

数据中心的互连带宽需求飞速增长，虽然目前产品主流是100G（4x25G）光模块，但国际范围都紧盯着400G开展研究，其中单波长速率期望达到100Gb/s。这里需要说明的是，光通信系统中还有另一维度波长（类似于无线通信载波频率），由于长距离通信常采取波分复用同一物理信道，人们通常用“单波长”来对应电芯片中的单通道。考虑到本文主要讲电路，我们暂且简单称之为“单通道速率”吧。

单路速度的提升引入越来越大的功耗、串扰和散热方面问题。我们看下图，传统的plugable光模块一般都放在服务器背板边沿，服务器Payload主芯片（xPU、switch、FPGA等）需要先走一长段背板线才能到达。在单路100Gb/s速率下通常需要n多tap的FFE、DFE电路均衡走线的高频损耗。大家不难想象，仅仅是把数据走到光口，可能上百mW功耗就已烧掉，更别说多路并行的总能耗和串扰了。另外，密密麻麻一排光模块堵在板边沿，服务器内风路不畅，散热也成了大问题。

如果把每个光模块做小，并围绕服务器主芯片就近放置，上述长走线问题就有望大幅缓解。这是目前国际范围的发展趋势——共封装（co-packaged）板载光模块（On-board optics），我们形象的称之为“芯片出光”。Intel擅长做chiplet（详见session-8），几个裸片封到一起，再罩个盖子，外表看就像一个直接以光信号通信的magic chip。如下图所示，这种情况下光模块端的电路也可简化：节省掉（或使用轻度的）均衡与时钟数据恢复（CDR），并降低接收端灵敏度需求。当然，此发展趋势还要平衡旧有商业利益的问题，其大规模产业化还有待观望。

2、光电协同设计光模块小型化最大的挑战是提高芯片集成度和降低功耗，而硅基光电子（Silicon Photonics）在CMOS兼容的衬底上同时制备光器件和高速电路，是实现此目标的有潜力方案。说句题外话，我们这里强调“CMOS兼容”，是因为至今硅光技术还未实质的将光电单片集成推进到实用化。一方面光器件大部分性能仍被III-V族完爆；另一方面，也是最重要的，光器件尺寸与深亚微米CMOS晶体管不在同一量级，目前主流应用场景中单片化成本上不划算。本文选择了微米量级的硅光微环谐振型调制器（Micro-ring Resonator Modulator, MRM）作为上述问题的突破口，原因有三：首先尺寸小，相比于马赫-赞得调制器（Mach-ZehnderModulator, MZM）动辄2-3mm的长度，它的尺寸下降两个量级，直径大概只有20um左右，为将来光电单片化打开大门；其次好驱动

，相比于MZM等效50-ohm的阻抗，MRM仅相当于PAD大小的一个电容负载，使得CMOS反相器直接驱动成为可能；再次并行度好，多个MRM并行集成，可实现天然的波分服用（WDM），无需额外的透镜芯片。简单科普一下MRM的原理，光波信号在芯片上的“导线”称为波导，在硅光工艺中就是用SiO₂包裹着纯Si做一个“管道”：光在里面透射不出去，只能直线或者来回反射着向前传播。我们在波导总线旁边很近的地方（几微米，但不接触），放置额外的闭合环形波导，总线上的光能量将泄漏到环中，使得总线最终输出能量减小。这里一个有意思的特性是，当某波长的光沿微环走一圈恰是其波长的整数倍时，大部分能量都将困到环中，不再沿总线传输了。而如果人为改变加在环形波导中的电场，光波的传播速度会改变，那么它走一圈的时间会改变，即环形波导的谐振波长将改变。利用这一特性，MRM就类似于一个高Q值的“坑状”带陷（notch）滤波器，滤除掉极小波长范围的光。而对于固定波长的信号，我们在MRM波导上施加交变电压，就能造成其谐振波长往复平移，进而产生对总线光信号强度的调制效果。再进一步，如果我们沿总线放置多个微环，并且设置它们具有不同直径，就能得到多个分离谐振波长，这就使得单信道的波分复用成为可能。当然，在一定范围内容纳更多波长，实现密集波分复用（DWDM），带陷滤波的“坑”就必须足够窄和深。

在PAM4调制下，MRM调制器最关键的三项参数，也是其驱动电路最大的设计挑战，是调制效率、线性度和波长稳定度。下面我们力求形象的逐个进行说明，

（1）调制效率为了调制后的‘0’和‘1’有足够区分度（称为消光比

ER），我们希望MRM的波长选择对带内/带外信号抑制度足够大。由于调制是靠平移微环的谐振波长实现的，上述语句就翻译成调制产生的谐振波长移动足够大。为此，我们要么做一个高效率MRM，在低电压幅度驱动下就能实现足够大的波长移动；要么做一个电压摆幅高的驱动芯片，造成光波传输速度的改变非常大。

本文中Intel做的MRM显然比较牛，详见他们2018年OFC的论文[1]，其结果是仅需要差分2.4Vpp的驱动电压，就可产生>5dB消光比，还能有50GHz的调制带宽。这和文章作者2015年ISSCC文章中的MRM相比，所需幅度降低近一半，带宽反而提升近一倍。本文则关注于电路技术，旨在实现大摆幅的驱动电压。具体来说，就是要用单管耐压0.9V的28nm CMOS电路，实现高速3Vpp的输出摆幅。

（2）线性度首先，MRM存在静态非线性，如下图即便driver输出理想线性PAM4波形，电光转换后也将产生明显的非线性“大小眼”；

其次，耗尽型MRM存在动态非线性，驱动电压大范围变化导致其等效电容受调制，造成驱动信号在逻辑高和低处带宽不相等。仔细观察下图，带宽不足的程度还与码型相关：短“0”的带宽不足最明显，因此均衡时需要针对码型提供不同的均衡强度。本文的主要贡献在于此处，即提出了非线性预失真（NL-PD）和非线性FFE（NL-FFE）相结合的均衡方法，抵消上述两种非线性。

（3）波长稳定性

MRM到目前为止最大的技术难题是其波长的稳定和调节。前文我们提到，为提高输出光信号消光比、支持DWDM，MRM的滤波特性陷波Notch必须非常窄，Q值高达上千。在此情况下，工艺偏差、温度变化都将造成显著的谐振波长漂移，必须搭建光电闭环的调节系统再出现PVT偏差时将波长稳定在确定数值。本文的主要贡献也在于，提出改进型的波长自动稳定技术，监控并实时调节MRM波长。

3、电路和系统亮点

本文内容较多，全部平叙一遍可能导致读者丢掉重点；因此，我们仅对应上面提到的三项参数，向大家分别解读亮点工作，而剩余细节电路则留给感兴趣者深入研读。

（1）高速大摆幅输出级为实现足够大的消光比，我们需要在高速下提供3Vpp的输出摆幅。如下图，本文Driver由30个结构相同和尺寸不同的单元并联实现：每个单元内，差分信号到达输出级之前分成工作在0~VDD和VDD~2*VDD的两条并行之路：前者在输出逻辑高时，负责将负载电容上拉到2*VDD（2.2V）；后者则负责在逻辑低时，将负载电容泄放至0。这相当于把2.2V电压摆幅均摊到两个串联的PMOS（或NMOS），实现了2倍于单电压域的电压摆幅。与此同时，类似于SST型电压driver，每个driver单元的输出阻抗由晶体管导通电阻、额外串联的电阻R

_L构成，用来吸收封装后信道不连续导致的反射。文中作者声称额外的R_T用来提升线性度，笔者猜测driver输出阻抗随PAM4调制变化较大，因此额外并联固定数值R_T可缓解其波动，其代价可能是充放电速度和输出摆幅的降低。SST driver的阻抗控制这里不再展开，感兴趣的朋友借鉴一下相关SERDES论文。

考虑到driver与硅光MRM的对接，首先，调制器PN

结（也就是差分两端）之间需要一个反向偏置，因此driver和MRM通过电容耦合，阴极和阳极分别通过电阻外加偏压；其次，MRM的容性负载导致driver输出带宽不足，本论文通过series-peaking电感的方式，将核心电路和负载大电容隔离，获得32GHz左右的带宽提升。

（2）非线性驱动与均衡这部分比较复杂，我们看最终目标：为抵消MRM两种非线性，driver需要将理想PAM4波形（蓝色），预失真成特定形状（红色），以获得线性度改善后的光眼图（绿色）。从上向下观察目标眼图形状，其眼高依次变化（预失真比例系数αn），均衡的强度也各不相同（预失真比例系数βn）；PAM4每个眼皮处都呈现四种不同预加重强度，并取决于前一UI的数据码型。这里笔者认为红色曲线的绘制，在均衡强度逻辑上稍有点错乱，有待读者根据自己理解进行判断。

为达到上述效果，作者把driver主要电路做成结构相同、尺寸各不相同的30个slice，其中21个一倍尺寸（1x）单元给线性双抽头（2-tap）PAM4调制，（4*1x+1*0.5x）单元给非线性预失真，（1*1x+2*0.5x+1*0.25x）给非线性均衡。这里要注意的是，每个slice中是28Gb/s NRZ的CMOS信号，只有在最终相加节点才产生56GBaud/sPAM4信号；每个slice中都有独立的查找表（LUT）、串化器（2：1）和SSTdriver。

为了在对应不同数据电平（A/B/C/D）的情况下，打开对应数目的driver cell单元，本文将上述30个slice按照温度计码方式进行排列组合。这里有点绕，我们先看非线性预失真的编码方法：线性情况下显然为等间隔为8的四个幅值（24/16/8/0）；而为了抵消非线性“大小眼”，上述码型预失真为（24/13/5/0）。具体电路实现中，则使用PAM4的2-bit输入信号（MSB/LSB），直接选中四个电平所对应的温度计编码（24/13/5/0）进行输出。每位数据的LUT具体电路如下图所示，其核心思路是最小化对输出节点充放电时间，减少关键路径上串联的晶体管个数，因为DUT都运行在28Gb/s。

上述思路同样可使用在FFE中，比如在NRZ调制时可根据数据流的相邻2个UI数据d1、d0，去选择当前码型转换时main-tap和post-tap分别打开的slice的数量，实现与码型相关的均衡。扩展到PAM4调制情况，则应当产生（1*1x+2*0.5x+1*0.25x）四种slice的打开与否的控制信号，这在下图中分别对应了x4、x2和x1的四个LUT。具体的编码对应关系我们不再细讲，但需要注意的是，这里的求和DAC指的是最终driver输出节点，而并不是在DUT的输出就进行了求和处理，因为在输出级之前信号通路上传输的仍是NRZ格式。

（3）波长自动调节MRM的谐振波长对温度变化非常敏感，文中提到约为10GHz/K；考虑到谐振时Q值非常高，闭环实时调节是稳定工作所必须的。常用的波长调节方法是从MRM波导总线分出5-10%的光功率，反馈到一个集成在调制器上的监控探测器（monitoring PD）；该功率转换成电流作为监控对象。波长调节则试图使此平均光功率达到最大值，以实现输入信号波长对准到调制器自谐振波长。微环的波长控制常采用加热波导的方式，即在环形波导附近放置电阻并施加电流，利用DAC调节此电流而控制实时加热功率，将MRM谐振波长稳定在期望值附近。上述过程中，几个关键参数需要考虑：调节精度、调节范围、硬件代价、能耗效率和反馈调节的可信度。

传统的波长闭环监控，采用低带宽的光电转换和放大器件，仅观测平均光功率的绝对值进行调节。它的问题在于观测值的变化可能来自入射光功率、信号码型、MRM滤波等多个因素，据此调节的结果可信度可能较低。本文对此进行改进，同时将进入和通过MRM的平均光功率拾取出来，监测其相对数值变化，更大的差值意味着更多的功率trap在微环中，即谐振波长更接近输入信号波长。另外，观测量转化成两路径输入I-V增益的比R1/R2，避免了与绝对数值（片上很难实现）相比，提高了反馈调节的置信度。这里笔者有个小疑问，两次MPD的光功率拾取，必然造成更大的光功率分流，这就对整个TX光路损耗提出更高的要求，不知道本文实际的链路开销如何。

另外，为了同时实现大调节范围和精细调节步长，我们需要较大的反馈系统线性动态范围，本文是通过两部动作实现：首先，使用sigma-delta调制器的方式实现12-bit的电流DAC；其次，将光功率通过MOS管平方率特性向电流量纲做线性映射。两者结合实现50mW功率范围，14uW的调节步长。

4、测试结果讨论

首先，我们来看看本文实现的完整光电集成发射机系统。得益于Intel强大的集成能力，本文的电芯片EIC倒扣在一个大的硅光芯片PIC上，并通过Cupper Pillar进行电气连接；同时III-V族激光器通过混合异质集成的方式，生长在同一个硅光芯片上；上述作为承载体的硅光芯片在通过平面金线的方式，集成到一个PCB基板上。这种集成方案的优势是：

（1）高速信号仅通过cupper pillar出现在EIC和PIC两芯片间，电源和低速信号通过PIC连接至PCB，在112Gb/s速率信号完整性好；

（2）激光器直接出光至片上波导，与外置激光器方案相比节省了输入光纤耦合的次数，有望提高整体光链路的信号插入损耗裕量。上述两芯片构成一个（目测）仅有数平方毫米的小型化共封装光电引擎，适用于本文开头提到的板载光模块。

文中两种均衡的效果在上图中得到验证，通过NL-PD有效改善了“大小眼”问题；与之相比在-0.7V下NL-FFE的均衡效果似乎没那么明显，这主要是因为反向偏置太低，MRM器件结电容导致带宽不足，而提高FFE强度带来逻辑低时overshoot比较明显。

为了得到更好看一些的眼图，作者提高了反向偏置，并且优化了均衡和波长调节；笔者这里认为提高偏置的影响可能是主要的，估计也相应降低了FFE强度。这样一来眼图质量得到明显提升。关于TDECQ是什么意思呢？笔者在这里仅简单的介绍一下，想象我们的TX芯片发射PAM4光信号，与此同时还有一个理想的TX也发射相同的PAM4信号，假如用相同的光电接收机去处理并实现相同的BER目标，显然我们的芯片需要该接收机“费更大的劲”，这转换成dB量纲就是上述的TDECQ；而实际情况下，测试仪器是通过叠加不断增大的噪声来寻找上述数值的。显然TDECQ越小，说明我们的TX越接近于一个理想的golden TX，性能也就越好。

最后，我们来看看波长调节带来的效果：实测在28°C到55°C下都能保证TDECQ不会恶化0.5dB以上，这是一个很有效且直观的数据支撑；而开环情况下，40°C左右基本信号质量就差到不可用了。波长自动调节是微环谐振型光电收发机，走出实验室实现未来量产化，最重要的技术。当然，波长稳定目前还有许多未解决的问题，例如大芯片中的热串扰、调节范围、响应速度、DWDM多波长情况下的调节逻辑等，这些也都是读者可以深入探索的潜在方向。

4、总结

面对数据中心，尤其是Switch等应用中对于高密度、低功耗、高带宽光模块的需求，光电接口仍是整个链路的性能瓶颈；微环MRM收发机的光器件尺寸小、驱动能耗低，恰能解决上述问题。MRM光器件本身呈电容性负载，便于深亚微米CMOS工艺下与数字电路的集成，是最有可能实现光电单片集成的方案之一。然而长期以来，国内惯性思维认为该方案波长稳定问题难以跨越，距离实用化遥遥无期，也不愿投入过多精力开展研究；而已开展的研究多集中于单独微环光器件的优化，与电路集成方面涉猎较少。

笔者在这里认为，在当前技术发展的趋势看，我们应跳出传统光电分家的视角来看待此问题。硅光子技术最大的特点是与CMOS电路的兼容，我们应充分放大此优势，借助大规模CMOS电路强大的处理能力解决上述问题。以近期关注度较高的创业公司Ayar Labs为例，通过单片光电集成，数据传输的能耗效率已降低到标杆性的1pJ/bit以下，而单片总带宽也达到1.2T水平，实现了上述技术的初步产业化。笔者相信微米级的硅基光电集成，为后摩尔时代集成电路的发展，探索出一条崭新的、前景可期的道路。最后，如果大家问我Ayar Labs做的究竟怎么样？我借用“昊总”先前私下的交流：“非常牛”。

感谢大家阅读本期对于ISSCC2012-1论文的解读，接下来我们会继续和大家分享更多的光电集成方向的优秀论文。祝大家早日发上ISSCC。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2238期内容，欢迎关注。

★华为撬动基站PA市场，为GaN再添一把火

★我对国产芯片的一些看法

★汽车厂商的芯片布局

“芯”系疫情｜ISSCC 2020｜日韩芯片｜华为｜存储｜氮化镓｜高通｜康佳

分享到:

閱讀更多 半導體行業觀察 的文章

關鍵字: 硅光交个朋友吧设计