谷歌OCS(光交换机)的技术、发展、合作商与价值量拆解

谷歌OCS(光交换机)的技术、发展、合作商与价值量拆解

猫叔

1、谷歌AI的强劲势头

本来这篇文章是讲AI的Networking方面的内容,但谷歌AI近期的表现实在是过于亮眼,我们就小篇幅提一下。

2025年8月26日,谷歌推出Gemini 2.5 Flash Image(代号Nano Banana),其图像生成与编辑功能在细节和语义一致性上表现优异,覆盖美式证件照、像素风游戏、微缩模型等多种应用场景。上线不到一个月,新增2300万用户,生成超过5亿张图片,助力Gemini APP在9月14日于美国、印度、加拿大等多国应用商店登顶下载榜。此外,5月至8月,谷歌发布多项多模态大模型更新,包括Veo 3音视频同步生成、Genie 3实时交互世界、Imagen 4图片生成以及Pixel 10系列AI硬件整合,凸显其在AI研发上的领先优势。Gemini 3.0预计于2025年底推出,有望进一步提升模型能力。

在反垄断方面,2025年9月2日,美国地区法官公布谷歌搜索反垄断惩罚措施,强调“恢复竞争而非惩罚”,未采纳分拆等激进提议,好于市场此前悲观预期。谷歌业务基本盘保持稳固,虽然分销协议调整可能增加竞争,但其算法能力、生态优势和品牌口碑依然领先,流量获取成本(TAC)有望优化,整体影响可控。

2、OCS技术

这个章节我们深入讲一下OCS的背景、技术、OCS的关键组件和问题、与CPO的区别。

2.1 、OCS的背景

在传统的Scale out网络中,无论是基于InfiniBand(IB)还是以太网,数据传输过程中需要多次光电转换和电光转换。以H100千卡IB集群为例,包含127台服务器、32台叶交换机和16台脊交换机,数据从一台服务器传输到另一台通常需要经过4次光电转换和4次电光转换,总计8次转换。这种转换过程显著降低了集群的效率,增加了延迟和能耗。


在网络数据传输过程中,大量光电转换操作的存在,源于光信号与电信号的特性差异及当前技术局限:尽管光信号在远距离、高带宽传输场景下的表现远超电信号,更适合长距离传递大量数据,但现有技术尚无法支持对光信号直接进行灵活的数据处理操作,必须先将其转化为电信号,才能完成后续的数据处理流程。

在各类电信号处理需求中,地址处理是核心环节之一。由于数据包的传输路径具有不确定性,无法预先确定其从哪台服务器发出、最终要发送到哪台服务器,因此交换机或路由器必须先拆开数据包,读取其头部的地址信息,才能准确判断该数据包的转发方向。这一过程与网络分层架构相适配,TCP、IP、以太网等不同层级的网络协议,各自承担着不同的功能职责,同时也对应着不同层级的地址管理,这种分层协作的模式,与人类社会中的快递运转逻辑十分相似(例如快递需经过区域分拣、路由规划等不同环节,每个环节对应不同的地址信息处理)。

显然,若能省去光电转换这一步骤,网络整体传输效率将得到显著提升。而在纯 AI 数据中心场景中,这一设想完全可以实现。AI 大模型的数据流转具有高度可预测性,无需拆开数据包查看地址,就能明确知晓数据包的目标传输节点。基于这一特性,只需让光信号通过反射直接传输至目标服务器,即可构建起高效的全光网络。相比传统互联网数据传输类似“快递”,AI数据中心的全光网络更像“地铁”,数据流向明确且高效。

2.2、OCS 主流技术方案及特点

当前 OCS 领域主要有三种主流技术方案,分别是 MEMS(微机电系统)、DRC(硅基液晶)和压电陶瓷方案,三者在市场占比、性能、成本等方面差异明显。

MEMS 方案是目前市场的绝对主流,占比超过 70%,谷歌等科技巨头都在广泛使用。它的技术相对成熟,参与的企业较多,性能指标比较均衡,端口扩展能力能达到 320×320,成本较低,切换速度也比较快,能满足大部分场景的基础需求。

MEMS 方案是通过微型反射镜(小镜子)的角度调整来实现光信号路径动态调整的,整个过程依赖高精度的机械控制和独立的光路管理。

具体来说,每根输入光纤传输的光信号,会先经过一组 MEMS 反射镜,再由这些反射镜把光信号引导到目标输出光纤。这些微型反射镜配备了二维转轴(X 轴和 Y 轴),通过调节转轴的角度,就能改变反射镜的反射方向,进而完成光信号传输路径的切换。对于某一条特定的输入路径,只要微调两个 MEMS 反射镜的角度,就能把该路径的光信号精准引导到任意一个目标输出位置,实现灵活的光路切换。

从硬件结构来看,每块 MEMS 芯片包含多个独立的小镜子,每个小镜子都配有专属的控制系统,该系统包含四个电压焊盘,分别用于调节 X 轴和 Y 轴的运动。这种 “一对一” 的控制设计,能确保每条光路都能独立调整,不会因为某一个小镜子的动作而影响其他路径的光信号传输。

另外需要注意的是,MEMS 芯片上小镜子的总数,直接决定了整个 OCS 系统能够支持的最大通道数,也就是外部可接入的最大光纤数量。所以,在当前技术条件下,小镜子的制造精度和长期可靠性,直接决定了 MEMS 方案 OCS 系统的整体性能及其端口扩展能力。

不过,MEMS 方案也有缺点,驱动电压比较高,通常需要上百伏,而且因为有运动部件,在高电压环境下,设备的可靠性和使用寿命会受影响,长期使用可能出现部件磨损、转动角度减小甚至完全失效的情况。

DRC 方案采用全固态设计,没有运动部件,是通过控制液晶分子结构变化实现光路折射,进而完成光交换的。这种设计让它的驱动电压极低,可靠性和寿命都有明显提升,寿命能达到 MEMS 方案的十倍,成本也略低一些,目前 DRC 方案设备成本约 4 万美元,而 MEMS 方案设备约 5 万美元。但 DRC 方案的切换速度比较慢,目前只能达到毫秒级别,没办法满足对切换速度要求高的场景,未来它的技术目标是把切换速度提升到微秒级别。

至于压电陶瓷方案,目前没有详细信息阐述它的具体特点和优劣势,暂时没办法展开深入分析。

实际应用中,要充分发挥 OCS 技术的优势,避免其短板,关键是结合网络拓扑结构和流量特征优化部署。

首先,要明确 OCS 技术的核心优势场景。对于端口间映射关系稳定、不需要频繁调整传输路径的网络环境,应该优先使用 OCS,这样能最大程度利用它低功耗、极低传输时延的特性,提升数据传输效率。相反,要尽量避免把 OCS 部署在需要高频率动态调整路径或者有高度随机化流量模式的场景,因为这类场景会放大 OCS 切换时间长的问题,导致网络整体效率下降。

其次,还可以通过合理规划网络拓扑结构进一步提升 OCS 的使用效率。比如,把高带宽需求且通信关系稳定的一组节点集中到同一个物理区域内,通过 OCS 为这些节点建立直接连接,减少跨区域通信所需的资源消耗,降低数据传输过程中的额外损耗。这种 “扬长避短” 的部署策略,能最大限度提升 OCS 系统的整体性能,同时有效降低网络的运营成本,让 OCS 技术在适配的场景中发挥最大价值。

2.3、光交换机与传统电交换机的差异

(一)性能与应用场景差异

在数据传输时延方面,光交换机通过直接提供稳定的光通道传输数据,时延极低,接近光速,而且整个过程不用频繁进行光 - 电 - 光转换;传统电交换机则需要多次进行光 - 电 - 光转换,处理数据包时,还要先解包、识别目标地址,再重新转发,这些额外步骤会大大增加数据传输的时延。

功耗上,光交换机不用进行信号转换,能量损耗更少,功耗优势很明显。但在灵活性上,传统电交换机更有优势,它的端口之间是全连接模式,每个数据包能根据包头地址直接定位到目标端口,不需要配置固定线路,没有切换时间,只需要纳秒级的数据处理时间;而光交换机要重新配置内部固定线路才能适应流量变化,目前切换时间是毫秒级别,这一特点大大限制了它的灵活性,过去在传统数据中心和 AI 应用中使用得也比较少。

综合来看,光交换技术更适合用在流量模式相对稳定、端口间映射关系明确且不用频繁切换的场景,在这类场景中,它能充分发挥低功耗、低时延的优势,同时避开切换时间长的短板;传统电交换机则更适合流量动态变化大、需要频繁调整数据传输路径的场景。

(二)成本与长期使用优势

从成本来看,长期使用下,OCS 交换机可实现约 30% 的成本节约 。这是因为 OCS 寿命长(如硅基液晶方案寿命约为 MEMS 方案的十倍,MEMS 方案寿命又长于传统电交换机),且无需频繁更换,同时单位端口的能耗成本更低。但 OCS 交换机初始成本较高,当前 OCS 设备单价通常在 4-5 万美元甚至更高,而传统电交换机单价仅为几千至 3 万美元,对于预算有限的中小型数据中心,初始投入压力较大。

时延方面,OCS 通过光通道直接传输数据,时延可接近光速,相比传统电交换机(需多次信号转换和数据处理),时延提升约 60%-70%,能满足大模型训练等对实时性要求高的场景。功耗上,OCS 相比传统电交换机可降低约 40% 的功耗,适合高负载、长期运行的数据中心场景。

2.4、OCS方案的端口数量问题

不同 OCS 技术方案的端口数量存在限制,核心原因是技术实现难度和制造工艺水平的差异,不同方案的核心部件结构、加工精度要求不同,导致端口扩展的 “天花板” 不一样。

以目前主流的 MEMS 方案为例,它的端口数量限制主要和以下因素相关。

第一,MEMS 方案的端口数量直接和光纤数量挂钩,每根光纤都需要对应一个微型反射镜(简称 “小镜子”),所以小镜子的数量直接决定了端口数量的理论上限。

第二,小镜子的加工良率是关键限制因素。因为 MEMS 芯片上的小镜子需要极高的加工精度,实际生产中很难保证所有小镜子都能正常工作。比如,谷歌某款 MEMS 芯片的设计里包含 176 个小镜子,但其中 40 个因为加工不良被屏蔽,只剩下 136 个可用,而且这 136 个中还有 8 个要用于通道校准,不参与数据收发,最终实际有效端口数只有 128 个。

第三,芯片尺寸与制造工艺的矛盾也限制了端口数量。虽然理论上增加芯片尺寸能容纳更多小镜子,进而提升端口数,比如达到 320 或 640 端口,但随着芯片尺寸增大,加工良率会明显下降,同时制造过程中还会面临精度控制、散热等更多技术挑战。目前行业虽然在持续优化技术,比如谷歌正在开发更高容量的 MEMS 版本,但端口扩展不是简单增加小镜子数量就能实现的,还需要突破一系列工艺和设计瓶颈。

2.5、光路系统中的关键部件

(一)激光注入模块和摄像头模块

光路系统中额外设置激光注入模块和摄像头模块,核心目的是实现实时校准功能,而不是直接参与数据传输,这两个模块是保障光路长期稳定运行的关键,不是冗余设计。

具体来说,该校准系统主要用于调整 MEMS(微机电系统)中小镜子的偏转角度,确保光路始终处于预设的精准状态,避免因设备老化导致的光路偏移。MEMS 小镜子的偏转角度由焊盘上的电压控制,比如正常情况下施加 1 伏电压,小镜子能偏转 1 度,从而把光信号引导到目标输出端;但随着设备使用时间增加,机械转轴会出现老化磨损,此时即使施加 1 伏电压,小镜子可能只能偏转 0.9 度,进而导致光路偏离目标位置,影响数据传输的准确性。

为解决这一问题,激光注入模块会发射专用波长的光束,对每个光路进行持续检测;摄像头模块则负责捕捉光束的实际传播路径,判断是否存在偏移。一旦发现偏差,比如原本应偏转 1 度的小镜子仅偏转 0.9 度,系统会自动调整控制电压,比如将电压提升到 1.1 伏,使小镜子恢复到预设的偏转角度,确保光路精准。

整个校准过程依赖两套独立的发射(激光注入模块)和接收(摄像头模块)单元,分别对应系统中的两个 MEMS 芯片(每个芯片包含 136 个独立小镜子),实现对所有光路的全面覆盖。这种实时校准机制能有效抵消设备老化带来的负面影响,显著延长 OCS 设备的使用寿命,并确保其长期稳定运行。

MEMS 小镜子的制造难点并不是集中在镜面本身,而是主要体现在其机械结构与电子控制的集成环节,这一特性源于 MEMS 技术 “机电一体化” 的核心属性。

首先,从结构设计来看,每个 MEMS 芯片通常包含超过 100 个小镜子,每个小镜子不仅需要简单的镀膜结构来保证光反射效率,还必须集成复杂的机械部件,其中最关键的是用于实现角度调整的小型转轴。这些转轴的尺寸极小,通常在微米级别,对加工精度的要求极高,任何微小的尺寸偏差都可能导致转轴无法正常转动,进而影响小镜子的角度控制精度。

其次,机械部件与电子控制芯片的高度集成进一步增加了制造难度。小镜子的角度调整依赖电子控制信号(通过电压焊盘输入),所以需要将机械转轴与电子控制电路在极小的芯片空间内实现无缝衔接,既要保证机械结构的灵活性,又要确保电子信号的稳定传输,两者的兼容性设计是制造过程中的核心挑战。

此外,这种复杂的集成结构还导致加工良率较低。因为涉及机械、电子、光学等多领域的工艺要求,任何一个环节出现问题,比如转轴磨损、电路短路、镀膜缺陷,都会导致整个小镜子失效,进而影响整片 MEMS 芯片的可用率。例如谷歌某款 MEMS 芯片设计了 176 个小镜子,最终因加工问题屏蔽了 40 个,有效率不足 80%,这也从侧面反映了 MEMS 小镜子制造的高难度。

(二)发射和接收模组

OCS 中的发射和接收模组是 “光路校准系统” 的核心组成部分,主要涉及激光芯片、探测器芯片、无源光学器件等关键组件,用于保障校准激光信号的稳定发射与精准接收。

从关键组件来看,发射和接收模组的核心组件可分为两类:一是有源组件,包括激光芯片(用于发射校准用激光束)和探测器芯片(用于接收校准激光束,判断光路是否偏移),这两类芯片是模组的 “核心功能部件”,直接决定校准精度和稳定性;二是无源光学器件,包括滤光片(过滤杂光,确保校准激光纯度)、准直透镜(将激光束校准为平行光)、棱镜(改变激光传播方向)、隔离器(防止激光反射干扰,保护激光芯片),这些器件用于优化激光束的传输路径,提升校准效率。

从成本构成来看,单套发射或接收模组的总成本约为 1000 美元,其中各部分成本占比明确:有源组件(激光芯片 + 探测器芯片)成本最高,约占总成本的 60%-70%,主要因为这类芯片对波长稳定性、功率控制精度要求极高,制造难度大;无源光学器件成本约占 15%-20%,单套模组的无源器件成本约为 150 美元,虽占比不高,但对器件的精度要求同样严格;其余成本为模组的组装、测试和封装费用,约占 10%-15%。

(三)二色向分光片

二色向分光片是 OCS 光路校准系统中的 “波长筛选关键部件”,通过对特定波长光信号的选择性透射或反射,实现校准光路与数据光路的分离,确保校准功能精准运行。

从核心作用来看,二色向分光片的核心功能是区分 OCS 系统中的 “校准光信号” 和 “数据光信号”,避免两者相互干扰:在 OCS 设备中,校准系统使用的激光波长通常为 850 纳米(用于光路校准),而数据传输使用的光信号波长通常为 1310 纳米(用于数据收发)。二色向分光片通过特殊的镀膜工艺,实现对这两种波长的 “选择性处理”—— 对于 850 纳米的校准光信号,允许其透射通过,进入校准系统的探测器芯片,用于判断光路是否偏移;对于 1310 纳米的数据光信号,则将其反射回数据传输路径,阻止其进入校准系统,避免干扰校准精度。这种 “波长筛选” 功能是确保 OCS 校准系统独立、精准运行的关键,若没有二色向分光片,校准光与数据光会相互干扰,导致校准失效或数据传输错误。

从技术特点来看,二色向分光片的核心技术壁垒在于复杂镀膜工艺:为实现对特定波长的精准筛选,需要在镜片表面镀上多层不同材质、不同厚度的薄膜,每层薄膜对特定波长的光信号产生干涉效应,最终实现 “850 纳米透射、1310 纳米反射” 的效果。这种镀膜工艺对薄膜的材质纯度、厚度均匀性、层数控制要求极高,任何微小的工艺偏差都会导致波长筛选精度下降,影响 OCS 的整体性能。此外,二色向分光片还需具备高透光率(对 850 纳米光信号的透光率需达到 90% 以上)、高反射率(对 1310 纳米光信号的反射率需达到 95% 以上)和长期稳定性(镀膜层不易磨损、氧化),进一步提升了技术难度。

2.6、 微透镜阵列

微透镜阵列(MLA)是 OCS 设备的 “刚需部件”,核心功能是准直发散的激光束,确保光信号在传输过程中的稳定性。

在 OCS 设备中,光信号从光纤输出后会自然发散,若不进行准直,会导致光信号衰减、光路偏移,影响传输效率和稳定性;而 MLA 通过阵列化的微型透镜,可将发散的激光束校准为平行光,确保光信号在传输和反射过程中的稳定性。因此,无论是 MEMS 方案(依赖光反射)还是硅基液晶方案(依赖光折射),均需在光信号传输路径中配置 MLA,不存在 “替代方案”,需求具备刚性。

从需求情况来看,随着 OCS 设备出货量的增长(如谷歌每年部署 1 万台以上,未来预计增长至 10 万台),MLA 的需求也将同步刚性增长。从主要供应商来看,目前国内厂商炬光科技是 OCS 领域 MLA 的核心供应商之一,已进入部分头部 OCS 设备厂商的供应链,作为二级供应商(二供)提供 MLA 产品;此外,部分 OCS 设备厂商(如谷歌)为保障供应链安全,也自行建立了 MLA 生产线,实现部分 MLA 的自主供应,但仍需外部供应商补充产能。国际厂商中,康宁、Lumentum 等虽具备 MLA 研发能力,但主要聚焦于自有 OCS 方案的配套,对外供应较少,因此当前 OCS 领域 MLA 的供应商以国内厂商为主。

从价格和市场前景来看,MLA 的价格相对稳定:单个 MLA 通道的价格约为 1 美元,一台 OCS 设备通常包含约 270 个通道,因此单台设备的 MLA 成本约为 260 美元,占 OCS 设备总成本的比例较低(约 6%),价格波动对 OCS 设备整体成本影响较小。从市场前景来看,若按未来 OCS 设备出货量预测(2030 年可能达到 5-10 万台,长期有望达到 30 万台),MLA 的市场规模将从当前的数百万美元增长至数亿美元;此外,随着 OCS 设备端口数量的增加(如从 136×136 扩展至 300×300),每台设备所需的 MLA 通道数量也将增加,进一步提升 MLA 的单位设备价值量。

2.7、CPO 和 OCS有啥区别?

先说说 CPO,它的核心思路是 “凑一块儿”,把交换芯片和光模块(也就是光引擎)封装在同一个壳子里。这么做的好处很直接:光信号从芯片到光模块的距离大大缩短,时延和功耗自然就降下来了。而且因为和交换芯片贴得近,CPO 能实时跟着数据流量变,调整传输路径的速度特别快,差不多能达到电交换机的纳秒级,灵活性特别高。尤其是和英伟达的 GPU 搭配时,它能完美适配 NVLink、NVSwitch 这些技术,GPU 集群的通信效率一下就提上去了。

再看 OCS,它走的是 “全光路子”,靠 MEMS 反射镜或者硅基液晶分子来控制光信号的路径,全程不用把光信号转换成电信号再转回去。这种纯光学的方式,时延几乎能摸到光速,功耗也比电交换机低 40% 左右,这两点是它的大优势。但缺点也很明显:光路得提前配置好,想调整路径的话,速度只有毫秒级,应对那些频繁变的流量就有点吃力,灵活性比 CPO 差不少。

正因为技术特点不一样,它们用的场景也完全不重叠。CPO 适合那些数据流向老变、需要快速响应的场景,比如 AI 大模型的实时推理 ,推理时得频繁调整数据往哪儿走,纳秒级的切换速度刚好能跟上;还有云计算里给不同租户分配资源,租户需求随时变,CPO 能快速适配。特别是英伟达 GPU 主导的 AI 数据中心,CPO 简直是量身定做的。

OCS 则更适合流量模式比较固定、不用老调路径的场景。比如大模型的深度训练,一旦开始训练,流量怎么走基本就定了,一次配置好光路就能用很久,毫秒级的切换速度完全够用;还有数据中心上层网络的冗余保护,只有设备坏了才需要切光路,低频切换刚好能发挥它低功耗的优势。像谷歌的 TPU 集群,就特别适合用 OCS,既能满足低时延需求,长期用下来还能省不少电。

3、谷歌的OCS

谷歌使用的 MEMS 芯片采用 “自主设计 + 委托代工” 的模式,芯片设计环节由谷歌自行完成,生产制造环节则委托给瑞典专业代工厂 Silex 负责。

这一模式的形成源于谷歌的实际需求。早期谷歌曾尝试从市场上直接采购现成的 MEMS 芯片,但由于谷歌对 MEMS 芯片的端口数量、切换速度、可靠性等指标有定制化要求,市场上的通用产品无法满足其 OCS 系统的适配需求。为解决这一问题,谷歌决定组建团队自主设计 MEMS 芯片,从底层架构上确保芯片与自身 OCS 设备、TPU 集群的兼容性,同时优化芯片的性能参数,比如提升小镜子的角度控制精度、降低驱动电压。

Report Page