发布日期:2026-07-01 13:26 点击次数:98

2024GTC大会上,黄仁勋右手B200,左手H100,理所固然地有了新东说念主忘旧东说念主: “咱们需要更大的GPU,如若不行更大,就把更多GPU组合在沿路,变成更大的造谣GPU。”
英伟达公布的Blackwell架构的B200 GPU,亲手把网红显卡H100拍在了沙滩上。
按照黄仁勋的先容,B200表面上的AI性能可达20PFLOPS,是H100的五倍。比较H100的800亿晶体管边界,B200的晶体管边界高达2080亿。

一般来说,芯片算力提高的最常用技艺是选拔先进制程,用更高的密度在芯片里塞进更多晶体管。如摩尔定律所说:
集成电路上不错容纳的晶体管数量,精真金不怕火每经过18个月到24个月便会增多一倍。
比如选拔7nm工艺的A100 GPU,芯片(Die)面积为826mm²,内有542亿晶体管;选拔5nm(台积电N4)工艺的H100,芯单方面积简略为814mm²,晶体管数量反而暴涨至800亿。
皇冠VIP服务您享受贴心博彩体验。有关词,B200在晶体管数量提高近三倍的同期,并莫得效更先进的3nm工艺,而是选拔了和H100一样的5nm工艺。黄仁勋所说的“大”和“组合”,是字面真理上的:
从手艺旨趣看,B200其实是把两块芯片“拼”成了一个大芯片。
在英伟达的PPT演示里,两颗GPU从边缘“无缝粘合”在沿路,面积X2的同期,算力翻倍。

1+1=2的技艺看似浅薄躁急,背后却是一场在物理学边缘的冲锋与冒险。
1+1随机候不等于2
工场提高分娩力有两种方针:一是扩建厂房,装进更多的分娩线;二是升级分娩线,在厂房面积不变的情况下,增多分娩线数量。
芯片公司一直以来齐在选拔第二种技艺:通过分娩线创新(工艺制程),在有限的芯单方面积里塞进更多晶体管,幸免扩建厂房带来的房租本钱高潮。

但这种形态的局限性在于,分娩线创新(工艺制程)对应的研发本钱越来越高,致使有高过房租的趋势。H100选拔的5nm工艺,很可能等于GPU量产的极规章程,继续下探到3nm,很可能本钱上归天。
扩建厂房果然是一个方针,但放在芯片分娩上,会际遇一个中国东说念主很熟悉的问题:地盘供应有限。
每一颗芯片齐是从12寸的硅晶圆(地盘)上“切”下来的,那么芯片(厂房)面积越大,每块晶圆能“切”出来的芯片就越少。
再谈判到良率和大面积芯片的散热问题(施工事故),单个芯片本钱会成倍提高。
由此生息出了第三种想路:建一个一模一样的厂房,让两个厂房同期分娩,既避让了本钱问题,又提高了分娩终局。
这种技艺听上去浅薄,但实践起来难于登天。
芯片在奉行计算任务时需要经验两个阶段:数据传输和计算,数据传输消费时辰过多,计算“空载”,就会形成算力的猝然。就像两间厂房需要一个领班传达指令,领班在A厂房发表说话时,B厂房的工东说念主齐在摸鱼。
这就导致在一块主板上封装10颗芯片,性能非但不会提高10倍,反而很可能连两倍齐不到。
统计显示,2019年,法国共计接待220万到访中国游客,带来35亿欧元的经济创收。
近年来,购买奢侈品成为中国消费者假期出境游规划中的重要一部分。这个“五一”,有人为一只香奈儿Leboy包暴走香港海港城、中环、半岛酒店等数家门店,最终在离港前两小时得偿所愿。
2011年,发布了GTX590显卡,最大特色是在一个PCB板上装了两颗GPU芯片。
但在具体的游戏中,想同期调用两颗GPU的算力,不仅需要特意的软件撑持,性能也唯有单颗芯片的130%傍边。
原因就在于,遍及的算力被低效的数据传输猝然了。
皇冠客服飞机:@seo3687
GTX590显卡里有两颗GPU芯片
为了处理产线工东说念主趁着领班不在憎恨怠工的问题,英伟达团队在2017年发表论文,冷漠了名为“可组合封装GPU”的架构,中枢在于将多颗GPU集成在合并个芯片封装内。

传统的芯片封装是“先封再拼”,即两颗芯片封装结束,再用导线沟通。英伟达的决议是“先拼再封”,先把两颗芯片拼成一个大芯片,再封装到沿路。
把芯片(厂房)之间的物理距离缩减到0,领班传递指令,双方的工东说念主同期学习贯彻,贬低数据传输时辰,完结1+1=2。

几个月后,老敌手AMD线路论文谁不会写,刊发论文展示了4颗GPU集成在合并封装内的瞎想,声称其性能比其时的最强GPU还要高45.5%,况兼coming soon。
但不论是英伟达如故AMD,齐没能把这个决议真实“soon”出来。
第一个让1+1=2的,是苹果。
苹果的超能力等于有钱
2022年,苹果发布了M1 Ultra芯片,其最大特色是胜利将两颗M1 Max芯片“粘合”在沿路,变成一张大芯片,业内戏称“胶水大法”。
1+1=2的真理正如苹果在新闻稿中所说:
M1 Ultra 在职责时依然发扬出一枚芯片的举座性,也会被总共软件识别为一枚齐备芯片,开采者无需重写代码就能胜利利用它的执意性能。这在史上从无前例。

M1 Ultra由两颗一模一样的M1 Max芯片拼接而成
www.crownlottoclubsite.com苹果之前,险些总共的“缝合”决议,齐无法处理芯片在沟通经过中产生的损耗,使得性能不时“1+1<2”。M1 Ultra的背后,是一个名为UltraFusion的“缝持艺”。
按照苹果官方的说法,Ultra Fusion由苹果与台积电共同研发。但从涵养看,苹果融会的最大作用,所以“手艺冠名费”的形态,报销了台积电的研发开支。
两颗芯片的缝合,中枢是要处理芯片间的数据传输问题。
为了完结“无缝粘合”,苹果用上了台积电最奋斗、滥觞进的封装手艺——第五代CoWoS-S。[2]
传统的传输形态是将两颗芯片封装在一块基板上,芯片之间的传输由引线处理。CoWoS决议在基板和芯片之间加了一层硅中介层,通过在硅中介层里布线,迤逦将两颗小芯片沟通起来,沟通密度是现存手艺的两倍。

这个手艺的要害就在于硅中介层,亦然烧钱的根源。
硅中阶级骨子上是一派硅晶圆,Betrally也等于“切”芯片的原材料。只是为了作念沟通,就要另加一层硅晶圆的用度,这手笔惟恐唯有苹果作念得出来。
自后,英伟达在H100上选拔了更熟识的CoWoS,本钱仍越过4000好意思元。苹果作为领先的试错者,本钱只会更高。
除了CoWoS,苹果的钱还烧在了“缝合”手艺上[2]。
芯片制造的骨子,是在硅晶圆上描画复杂电路。但在实践制造经过中,电路不是胜利刻在硅晶圆上的,而是先刻在一个掩膜版上,再通过光刻和刻蚀把电路“转动”到硅晶圆上。

英伟达往时际遇的问题是,GPU芯片自身面积就大,一朝两颗GPU拼接,就会越过通俗掩膜版的大小(H100的面积照旧接近台积电5nm掩模版的极限),电路就无法被齐备地描画。
苹果冷漠的处理决议是,1个掩膜版不够,咱胜利上四个吧。
通过四个掩膜版“缝合”,将电路描画的面积增多到2500mm²,是英伟达同期GPU的3倍多(815mm²)。
在芯片制造中,很大一部分本钱就来自掩膜版制作。
掩膜版分娩需要Mask Writer(掩膜版写入机),精密程度堪比光刻机。而且Mask Writer只在掩膜版制作时使用,每种芯片只作念一次,难以摊薄本钱。
除此以外,由于Ultra Fusion用到了遍及新手艺,比如沟通芯片的高纵横比硅通孔(TSV)手艺,用于散热的新式非凝胶型热界面材料(TIM)等[2],台积电齐是拿着发票找苹果报销的。
M1 Ultra发布时,业界齐莫得准确的本钱推算。不是考虑员水平不到位,确切是手艺过于先进,算不出来。
高技术产业最要害的问题不是手艺若何完结,而是谁来掏钱把论文和实验室里的数据变成不错量产的产物。不知说念看着M1 Ultra的拼接默示图,会不会有久远的缅想短处黄仁勋。

手艺狂东说念主的营业冒险
最早试图处理的1+1<2问题的,既不是英伟达也不是苹果,而是台积电元老蒋尚义。
2009年,总结台积电的张忠谋请回照旧退休的蒋尚义。 在后者带领下,台积电以“后闸级”手艺阶梯到手出奇三星率先量产28nm工艺。 但在研发经过中,蒋尚义发现晶体管单元制形本钱不降反升,制程升级提高性能的性价比运行贬低。

拿着张忠谋批的1亿好意思元预算和400多东说念主的工程师团队,蒋尚义带队运行了“出奇摩尔磋商”。
东南亚博彩公司注册传统互联手艺下,传输速率照旧波及天花板。蒋尚义运行尝试一种新想路:
皇冠信用正网把两颗芯片放到沿路封装,物理距离缩小了,传输速率当然提高。为了差别于传统封装,蒋尚义将其定名为“先进封装”。
2011年,台积电获得FPGA大厂赛灵想订单,凭借CoWoS以及共同开采的硅通孔(TSV)等手艺,到手将4个28nm FPGA芯片拼接在沿路,推出了史上最大的FPGA芯片。
有关词,大部分客户对CoWoS兴味寥寥,赛灵想的订单杯水舆薪。
不是台积电手艺不够好,确切是先进封装太贵了。
皇冠信用盘代理老客户高通的高管在与蒋尚义共进午餐时直白线路,CoWoS手艺很好,但“我只快乐为它消费1好意思分/平方毫米”,而台积电其时的售价是7好意思分/平方毫米[3]。
传说英伟达亦然台积电CoWoS的第一批磋商客户之一,因为数据传输的瓶颈一直是困扰GPU计算的中枢问题。但听到台积电的报价后,英伟达马上线路,老手艺还能再强迫几年[3]。
赌博平台大全另一方面,先进制程还在稳步推动,先进封装的理念显得过于超前,毕竟指导还在开卡罗拉,你就别急着换良马了。
网络博彩老板因此,先进封装团队在台积电里面的一度边缘化,致使被看成念老干部诊疗院。自后跳槽三星的梁孟松,就合计我方被调往先进封装业务属于“下放”。
诈骗随后,台积电运行给CoWoS作念减法,掏出了替代决议“InFO”,将奋斗的硅中介层换成其他材料,阵一火了沟通密度,但本钱大幅着落。
紧接着,台积电际遇了不错靠一己之力改动供应商气运的超等甲方:苹果。
2013年前后,由于与三星在手机商场的竞争,苹果运行将芯片代工交由台积电。
凭借InFO决议,台积电在16nm工艺的基础上,制造出了比三星14nm性能更强的A10处理器,孝顺了历代iPhone中第二莽撞的iPhone 7[5]。
有了苹果的大单的,台积电的先进封装业务赶紧周转,并在2022年拿出了胆怯业界的M1 Ultra芯片。2024年开年,这个攻坚十多年的“胶水大法”,又被用在了英伟达的新核弹B200上。英伟达趁势拿下冠名权,将这项手艺定名为“NV-HBI”。
皇冠代理先进封装决议依然奋斗,但对今天的英伟达来说,本钱两个字若何写,他们可能照旧忘了。
尾声
除了CoWoS,另一个被生成式AI带火的手艺HBM,其探索相同不错追想到十年前。
CoWoS拿到赛灵想的第一笔订单时,蒋尚义无妄之福,但赛灵想的动机却让他有些哭笑不得:把四个老芯片拼在沿路,胜利当成新产物涨价卖,就无须我方开采新产物了[3]。
在好意思国计算机历史博物馆的采访中,蒋尚义回忆说念[3]: “我开采手艺的初志是处感性能瓶颈问题,在我看来,我的创新并莫得被用在好的方位”。
科技创新很难推出手艺创新,反而是手艺创新让科技创新成为可能。创造历史的东说念主,永恒无法料到我方在历史程度中的坐标。
在咱们不曾踏足的物理学的边境,还有无数伟大的创新尚在不为东说念主知的边际。

参考著作:
[1] NVIDIA Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data,Anandtech
[2] 苹果UltraFusion手艺,厦门云天半导体
[3] 蒋尚义万字自述,涌现台积电的登顶之路,新芽
[4] 台积电的先进封装是这么真金不怕火成的,天地杂志
[5] 苹果iPhone 7 A10处理器的新封装在手艺和营业上齐产生了盛大的影响,Yole Development
[6] 苹果M1 Ultra解密:业内首个GPU裸片集成,若何完结,集微网
[7] Apple Will Help TSMC to Be in the Leading Position in the Next Era,utmel
裁剪:李墨天
视觉瞎想:疏睿
职守裁剪:李墨天
封面图片来自ShotDeck