最近开云(中国)Kaiyun·体育官方网站-登录入口,好意思国加州大学伯克利分校陈在俊助理讲授团队与配合者基于超多路复用集成光子学,开发了一种光学张量处理器(HITOP,Hypermultiplexed Integrated Tensor Optical Processor),运算速率达每秒数万亿次,微辞量达 0.98TOPS,可搪塞大齐 AI 应用需求。
这一架构的中枢更正在于其独有的空间、时间和波长三维光学并行缱绻战略:通过在时间域和波长域同期复用缱绻任务,HITOP 仅需 O(N)个片上电光调制器即可完毕 O(N²)级别的缱绻微辞量,从而在硬件资源应用成果上完毕了质的飞跃。与传统电子缱绻架构比较,HITOP 展现出显贵的能效上风,其单元操作能耗可缩小最初 100 倍。
值得瞩宗旨是,HITOP 通过引入时间积分器这一更正遐想,私密地侧目了传统光学缱绻系统对高速高精度模数休养器(ADC,analog-to-digital converters)的依赖。这一遐想不仅大幅简化了输出电路结构,还显贵缩小了系统全体能耗,处治了恒久制约光学缱绻系统性能的环节瓶颈问题。
图丨陈在俊团队(开端:陈在俊)
伸开剩余90%从完毕的性能方面来看,该系统在 10GS/s 的高数据速率下仍能保抓 5-6 位的缱绻精度(缱绻罪过约 2.9%),可得志图像识别等大齐 AI 任务对大规模矩阵运算的需求。实测数据夸耀,HITOP 在处理大规模矩阵运算时的单元操作能耗仅为 18 飞焦耳,这一数值比现时先进的电子缱绻系统(如 NVIDIA H100 GPU)低一个数目级以上。
此外,HITOP 的芯单方面积成果达到 17.5GOPS/mm²,意味着在疏通芯单方面积下可完成更多缱绻任务,显贵擢升了硬件资源应用率。这项商议不仅处治了光学缱绻系统的可膨大性问题,更为 AI 和高性能缱绻领域提供了一种极具后劲的全新硬件完毕决议。
日前,联系论文以《基于光子学的超多路复用集成光学张量处理器》(Hypermultiplexed integrated photonics–based optical tensor processor)为题发表在 Science Advances[1]。好意思国南加州大学硕士毕业生欧绍元、加州大学伯克利分校博士生薛凯文是主要作家,陈在俊担任通信作家。
图丨联系论文(开端:Science Advances)
多维信号处理机制:将乘法运算从“矩阵与向量”升级为“矩阵与矩阵”
传统电子缱绻硬件(如 GPU、TPU)在处理大规模 AI 模子时,正濒临能耗高、缱绻成果低的隆起瓶颈。这一问题的根源在于电子架构的物理收尾:电信号在铜线中传输时会因电阻产生显贵损耗,同期电子器件的时钟频率擢起飞间有限,导致数据微辞量受限。
若以交通系统作类比,传统电子架构就像平面交叉的单车谈谈路,数据信号如同密集的车流,极易因带宽不及而激励“拥挤”。比较之下,光子缱绻则展现出显贵上风——其应用光波导传输信号,不仅幸免了电阻损耗,还能通过多波长复用完毕并行光路,如同立体交通关节中的多层立交桥,可同期容纳更多“车辆”高速通行。
光学模拟缱绻的商议渊源可追思至 20 世纪中世,那时已有科学家淡薄应用空间光路构建傅里叶变换缱绻器的决议。可是,受限于早期光学器件的集成度与调控精度,该时刻恒久未能完毕规模化应用。直至比年,跟着集成光子学时刻的粗放性进展,与此同期,摩尔定律在电子器件领域逐步靠近物理极限,光子缱绻才因其狡诈耗、高微辞的特质重获学界与产业界的平方护理。
比年来,繁多高校和商议机构不竭淡薄了多种光学缱绻架构,并在机器学习、图形处理等领域展示了其大规模部署的可行性。可是,跟着系统中光学调制器数目的急剧加多,微纳加工时刻濒临迢遥挑战,同期光学损耗也收尾了波导旅途的可膨大性。
更深脉络的矛盾存在于系统级优化层面。诚然电光调制器已能完毕皮秒级反映速率,但后端 ADC 的性能却成为全体算力的短板。现存时刻中,看护高采样率与高量化精度的 ADC 经常需耗尽数十皮焦每休养步的能耗,这与光缱绻单元飞焦级每操作的能耗酿成迢遥落差,导致系统能效上风被部分对消。
此外,现时大齐光缱绻架构仍师法电子缱绻的“存内缱绻”范式,却忽略了二者在物理标准上的推行各别:光学器件因受限于衍射极限,功能单元尺寸频繁在百微米至毫米量级,而当代电子晶体管已缩至纳米标准。这种数目级的尺寸各别使得光学系统在集成密度上难以与电子芯片抗衡,也暴泄漏光子缱绻在有用缩放道路上的中枢挑战。
图丨 HITOP 倡导暗意图(开端:Science Advances)
针对上述瓶颈,商议团队淡薄了全新的光缱绻芯片架构,其中枢更正体面前系统架构遐想层面。他们淡薄了“时间维度承载缱绻”的新范式:源头将数据编码在时间序列上,再以时间维度算作桥梁,与波长维度和空间维度完毕协同缱绻。通过多维度协同缱绻战略,为光学模拟缱绻提供了一种新的处治念念路。
其粗放在于:传统光学缱绻完毕 1000×1000 矩阵运算需要 100 万个调制器(O(N²)规模),而 HITOP 架构仅需 1000-2000 个调制器(O(N)规模),这极端于将硬件复杂度缩小了三个数目级。
这种多维信号处理机制使得系统大约平直完成矩阵与矩阵的乘法运算,而传统电子芯片频繁仅能完毕矩阵与向量的乘法运算。陈在俊对 DeepTech 透露:“这种粗放性的缱绻能力源于光信号在时间、波长和空间三个维度的并行处理特质,这是电子缱绻架构难以完毕的独有上风。”
图丨 HITOP 芯片架构(开端:Science Advances)
在材料采用方面,商议团队与加州大学伯克利分校喻梦洁助理讲授、香港城市大学王骋副讲授实验室配合,采用了具有优异电光特质的薄膜铌酸锂(TFLN,Thin-Film Lithium Niobate)算作光学缱绻平台。该材料具备优异的电光特质,其较低的半波电压(Vπ)显贵缩小了电光休养历程中的能耗,为完毕高效、低功耗的光学缱绻系统提供了基础。
应用场景:从数据中心模子考研到末端诱惑模子部署
陈在俊在德国马克斯普朗克量子光学商议所和德国慕尼黑大学取得博士学位,导师为诺贝尔物理学奖取得者特奥多尔·W·亨施(Theodor W. Hänsch),之后折柳在马克斯普朗克量子光学商议所和好意思国麻省理工学院迪尔克·英格伦(Dirk Englund)讲授团队从事博士后商议责任(DeepTech 此前报谈:MIT团队开发新式AI光子缱绻芯片,完毕缱绻成果提高100倍)。
面前,陈在俊在加州大学伯克利分校诱惑了孤独实验室,其商议地点主要聚焦于光缱绻时刻过火应用的更正,商议内容涵盖量子光学、压缩态光子学和光学传感时刻等多个前沿领域。
近期,团队正在开展存算一体化的新式光学传感器地点商议,并探索量子增强传感时刻在自动驾驶等推行场景中的应用。此外,团队还发奋于将东谈主工智能与量子光学才调相纠合,以完毕分子和原子标准的高精度测量。
该商议历时两年,始于陈在俊实验室刚诱惑之际。商议的中枢挑战主要聚拢在若何确保永劫期、高速光学缱绻历程中的测量精度与系统踏实性。
在软件架构层面,商议团队采用纵情波形发生器对光学系统算作精准限度中枢,通过高精度时序同步完毕光学缱绻单元的数据齐集与处理,并与缱绻机系统协同责任,告捷完毕了卷积神经网罗(CNN,Convolutional Neural Network)的运转。
在硬件测量方面,III/V 族半导体垂直腔面辐照激光器(VCSEL,vertical-cavity surface-emitting laser)与薄膜铌酸锂集成芯片之间的时序校准问题尤为环节,对完毕高速测量的缱绻精度淡薄了严峻挑战。
从缱绻旨趣来看,矩阵乘法运算(N×N 矩阵乘以 N×N 矩阵)的推行是,要求第一个矩阵中的整个行向量齐必须与第二个矩阵中的整个列向量完成点积运算。
在这个历程中,光学缱绻的独有上风得以充分展现:系统不错在缱绻框架内完毕自然的并交运算,并通过波长复用时刻将不同缱绻任务在光学域进行有用分离。举例,当一个向量(维度为 1×N)乘以一个矩阵(维度为 N×N)时,传统电子缱绻需要将该向量复制 N 次,然后折柳与矩阵的每一列进交运算。
诚然从数学抒发式看这个历程相对节略,但在硬件完毕层面却格外复杂。商议团队通过光学妙技私密地处治了这一可贵——应用光的波动特质当然地完成向量复制历程,这种基于波场的并行数据传输机制是电子缱绻难以达到的。
此外,他们所使用的缱绻元件齐相等节略。陈在俊讲明说谈:“咱们最终的方针是简约单的缱绻单元开发出高算力、狡诈耗的光学缱绻系统,处治光学可膨大性。”
因此,他们采用从最基础的光学组件入辖下手来构建系统。举例,仅需让激光束治安通过两个调制器就能完毕乘法运算:第一个调制器完成 A 整个调制,第二个完成 B 整个调制,经过两次调制后的输出光强即对应 A×B 的完了。通过这种简略而高效的乘法单元,商议团队告捷构建起三维缱绻架构,并应用光学复制旨趣完毕了前所未有的缱绻成果。
图丨 HITOP 实验装配与器件平台(开端:Science Advances)
在应用长进方面,这项时刻直指现时 AI 算力发展的中枢瓶颈,其应用场景涵盖从数据中心模子考研、边际及时决策、末端诱惑模子部署、局势模拟等场景。以自动驾驶为例,当代智能汽车频繁搭载多个缱绻芯片,其中 30-40% 的整车能耗齐耗尽在缱绻任务上。这种狡诈耗、高算力的光学缱绻时刻有望显贵擢升末端诱惑的能效比。
推行上,AI 的发展水平在很猛进度上受限于芯片性能,而光学缱绻的粗放可能透顶改变这一场所。当算力得到质的擢升后,此前受限于能耗和芯片成果的诸多时刻瓶颈有望治丝益棼,更大规模的模子考研将成为可能。
该商议中的实验数据夸耀,HITOP 系统在图像分类任务中推崇出色,而所需的模子参数目仅约 40 万。其中,在单层网罗(28×28→10)架构下,78.4ns 内完成图像处理,分类准确率达 97%;在更复杂的三层网罗(28×28→100→10)Fashion MNIST 分类中,准确率保抓 91.8%。
这当然引出一个环节问题:该时刻能否支抓 GPT 级别的超大规模模子考研?陈在俊指出,当系统规模膨大到 300×300 通谈时,单个光学芯片的缱绻能力将极端于多个 GPU 的并行组合,届时绝对具备考研大模子的硬件条款。
尽管现时的原型系统规模有限,但时刻道路也曾展现出迢遥的发展后劲。极端值得一提的是,在及时性要求极高的自动驾驶场景中,现存系统需要 1 毫秒的反适时间,而 HITOP 已完毕 100 纳秒的极低蔓延。不错预感,跟着系统规模的抓续扩大,这项时刻可能在自动驾驶等对及时性和能效要求严苛的领域阐扬紧迫作用。
图丨在 10GS/s 下对 HITOP 缱绻精度进行实验考据(开端:Science Advances)
面前,陈在俊正教导团队重心攻克光缱绻系统的联系时刻可贵并鼓舞工程化。其紧要方针是擢升激光器的波长踏实性,通过优化系统架构将缱绻规模膨大到 300×300,同期加多波长和通谈数目。尽管现存的硅光时刻表面上支抓这一规模,但在推行完毕历程中仍濒临诸多时刻挑战。
他透露:“完毕 300×300 的系统规模后,缱绻能力预测将达到 4000TOPS(每秒 4000 万亿次运算),这一性能将显贵特出现时主流的 NVIDIA GB200。”跟着先进封装工艺的抓续发展和系统集成度的不休提高,时序校准等环节时刻可贵将逐步得到处治,进而为光学缱绻系统的大规模买卖化应用奠定坚实基础。
参考府上:
1.Ou,S. et al. Hypermultiplexed integrated photonics–based optical
tensor processor. Science Advances 11, eadu0228(2025). https://www.science.org/doi/10.1126/sciadv.adu0228
排版:刘雅坤开云(中国)Kaiyun·体育官方网站-登录入口
发布于:北京市