谁能卡住英伟达的脖子?

2023-06-30 17:49:49 来源:网络

作者 | 丸都山

编辑 | 陈伊凡

生成式AI的风口下,一些行业正在“闷声发大财”。

从今年2月开始,中国台湾厂商AVC和双鸿(AURAS)股价一路飙升,在端午假期前的最后一个交易日,两家公司的股价较4个月前均实现翻倍,分别收报249.5新台币(约合58.1元人民币)及292.5新台币(约合68.1人民币)。

如果对照芯片巨头英伟达(NVEDIA)近期股价走势,会发现三者之间存在着惊人的一致性——这家芯片巨头公司同样在这4个月内时间实现了股价翻倍。

这显然不是巧合。

实际上,上述两家位于中国台湾地区的公司,或多或少与英伟达有关,确切地说是与生成式AI相关。AVC是全球最大散热模组厂商,也是英伟达AI服务器系统DGX H100目前的风冷散热系统供应商,双鸿则是Supermicro(超微电脑)服务器散热系统的供应商。

散热,这个过去不被人们重点关注的产业,正由于AI带来的数据量和计算量的爆发增长逐渐从幕后走向台前,多位从业人士向虎嗅表达了这样一个观点:“今明两年,AI行业中可能会出现算力被散热‘卡脖子’的情况。”

6月15日,在AMD发布APU(加速处理器)MI 300系列后,AMD股价由于受到“缺少大客户”的质疑下跌3.6%,但就在同一日,AVC与双鸿的股价却因AI芯片出现新玩家的利好应声上涨5.8%和3.6%。

作为一个与计算机科学共同成长起来的产业,散热模组厂商们经历了多次电子信息革命,但当下AI的爆发,似乎才真正让这个行业真实现了“翻身”。

AI的尽头是散热?

当电流通过电阻时,所消耗的电能会全部转化为热能,这种现象被称为电流的热效应,自计算机诞生以来,从业者们用尽办法将电子器件的温度控制在合理的范围内。

当然,早期的计算机功耗较低,而且整机体积较大,因此不需要单独设计系统级的散热解决方案,通常做法就是在计算机背部放置个简易的风扇,以将热流导出。

1989年,英特尔发布了80486处理器,人类第一次实现了在微处理器中集成百万级晶体管,这枚芯片的功耗也水涨船高,在芯片出厂时,英特尔为其配备了一组铝制的散热片,再配合机箱上的风扇完成整体散热。

以今天的视角来看,这种方案还是很简陋,但它勾勒出了散热设计最底层的原理:先导热,再散热。简单地来说,导热就是将热量在介质中传送,散热就是让热量尽可能快地从介质向外界散发。

传统的服务器散热方案与计算机散热原理大致相同,区别在于服务器所使用的算力芯片由于能耗较高,往往将芯片级散热系统作为重点,通常来说就是将芯片热量通过热管、均热片等传导到多褶结构的散热鳍片上,再通过风扇进行主动散热。

传统服务器散热器,与台式机基本一致。图片来源:中关村在线

传统服务器散热器,与台式机基本一致。图片来源:中关村在线

不过,这种风冷式散热方案在当前AI服务器上的表现已经明显力不从心。

原因在于高性能AI芯片的功耗在随着算力同步大幅提升。10年前市面上能买到的最顶级的数据中心GPU是英伟达K40,其热设计功耗(TDP)为235W,2020年英伟达发布A100时,热设计功耗接近400W,到了最新的H100芯片,热设计功耗直接飙升到700W。

国内散热技术厂商广州力及热管理科技(NeoGene Tech)创始人陈振贤向虎嗅表示,到了明年,单颗高性能AI芯片的热设计功耗将会突破1000W。

那么风冷式散热对应的散热极限是多少?国金证券研究所的一份报告指出,服务器2U空间下,250W大约是风冷的极限,4U以上空间风冷可以解到400W-600W。

这里需要普及下“U”的概念,这是美国电子工业协会制订的标准化尺寸,1U服务器的宽度为48.26厘米(19英寸),高度为4.445厘米(1.75英寸)。通常情况下,标准服务器机柜的高度为42U,但这并不意味可以容纳42枚1U服务器,因为过大的密度会增加散热负担。

而如果使用英伟达H100芯片的话,在使用风冷散热模组方案的情况下,就需要用到4U的机柜。

因此,为了提高单一机柜的功率密度,数据中心近些年开始普遍使用液冷方案。其大致可以分为两种技术路径:冷板式(Cold Plate)与浸没式(Immersion),前者是通过冷板将发热器件的热量间接传递给封闭在循环管路中的冷却液体,后者则直接将发热器件以及电路板整体直接置于液体中。与空气介质相比,液体的导热率更高、比热容更大、吸热能力也更强。

1U 2x双路节点服务器的冷板式散热方案,图片来源:@企业存储技术

1U 2x双路节点服务器的冷板式散热方案,图片来源:@企业存储技术

另外在运营成本上,液冷散热也有较大的优势。传统风冷散热将服务器芯片热量吹到数据中心机房内,这要求机房空调温度必须大幅降低,一位业内人士向虎嗅透露,台积电的数据中心温度常年维持在零度左右。而液冷散热模组的设备虽然较为昂贵,但大多属于一次性成本,后续的能耗成本可以大幅降低。

但这并不意味着目前液冷散热技术就是一种万全之策,陈振贤指出,在现有要求降低PUE(指数据中心消耗的所有能源与IT负载消耗的能源的比值)的限制下,既有的冷板式及浸没式液冷技术也都纷纷面临着解热极限的问题。

中科创星董事总经理卢小保也向虎嗅表示,目前无论是风冷还是液冷散热方案,都进入明显的发展瓶颈期,未来热管理相关技术可能会成为AI芯片性能释放的决定性限制因素。

破局点在哪里?

尽管业内目前还没有出现公认的“最佳解决方案”,但市场对于AI服务器的需求不会因此陷入停滞。

第三方研究机构TrendForce发布的预测指出,2023年AI服务器(包含GPU、FPGA、ASIC等主芯片)出货量将接近120万台,同比去年增长38.4%,而AI芯片今年出货量将增长46%。

有业内人士向虎嗅表示,在今年的AI服务器市场中,英伟达A100与A800的出货量将可能会占据80%,而随着下半年数据中心陆续导入热设计功耗高达700W的H100芯片后,行业内既有的散热技术可能都需要进行一次“推倒重建”。

卢小保认为,传统的风冷式散热方案并不是完全没有开发空间,但前提是导热器件必须进行升级换代,比如引入环路热管技术。

目前芯片级风冷散热模组中,导热器件主要以热管为主,它的主体是一根封闭、中空的金属管,内部有少量工作介质(主要是纯水)的毛细结构,运行时依靠介质蒸发吸收芯片热量,再由风扇将热量吹走。

热管工作原理,图片来源:antpedia

热管工作原理,图片来源:antpedia

而环路热管在保留上述特性的同时,导热能力增加几倍,而且导热距离更大,可以传递到一米以外甚至理论上可以传导到十几米以外,这是该技术在卫星上已经实现的效果。

“如果环路热管能做到数米远,就意味着可以直接将服务器芯片的热量导出到数据中心外部,连机房温度的问题都解决了”,卢小保指出。

不过作为一种航天工程的衍生技术,要在地面环境下落地应用,技术难度极高,虽然学术界和工业界都有很多团队在从事这项技术的研发,但真正具备落地商用能力的极少。

同样,液冷散热方案也具备升级迭代的潜力。比如结合将冷板与浸没式散热的技术特点相结合,在传统的1U或2U机柜槽中接入冷板,再接入浸没散热用的单向冷却液,以实现双重冷却循环。

据外媒Electronics Weekly报道,前不久美国能源部(DOE)立项了一个名为COOLERCHIPS的研究计划,䃼助英伟达5百万美元开发此项混合液冷技术,利用两相冷却液作为冷板的内循环,非导电冷却液体则是被直接注入服务器中做循环。

陈振贤表示,NeoGene Tech亦自主研发了一种更先进的具有三重液冷循环之服务器装置技术,将具备更高功率芯片的散热及散热能力,而且无需价格昂贵的两相冷却液作为循环,在运营成本上将更优。

此外,NeoGene Tech还基于冷板式液冷技术开发了一种被称为牛劲冷泵(NeoGene Liquid Cooler)液冷散热器产品,整体高度已经压缩至24.5mm,可以满足数据中心1U服务器机柜的超高密度布建需求。其最大特点是可通过内部三维蒸气腔的功能设计,根据芯片功率及功率密度做出解热及散热的功能调整。

陈振贤指出,1U的牛劲冷泵液冷散热器已经可以服务TDP超过1000W的高算力芯片。

1U规格的牛劲冷泵液冷散热产品,图片来源:NeoGene Tech

1U规格的牛劲冷泵液冷散热产品,图片来源:NeoGene Tech

以上提到的技术方案,都是基于过去散热模组的迭代,那么是否存在一种技术,可以直接在芯片上做文章?

在今年3月,NeoGene Tech曾公开了一个针对高功率芯片封装的散热方案:直接将裸芯片和牛劲冷泵液冷循环系统封装在一起工作。

陈振贤向虎嗅表示,“在这个技术路径下,散热模组不再是芯片外部的独立器件,它本身就是IC元件的一部分,可达到即插即用(Plug&Play)的目的”。

这项散热封装技术若再搭配具有三重液冷循环之服务器装置技术,能够为数据中心省去所有的二级、三级散热系统,只需将自我浸没式服务器插入机柜内, 再接入水管及非导电冷却液管就可以直接使用。当然,该方案对先进封装工艺有一定的要求。

另一种直接在芯片上做散热的技术,也与封装工艺紧密结合,那就是Chiplet。

简单地来说,就是将一个单颗SoC芯片的功能拆分成众多小芯片,然后运用先进封装技术重组成一个庞大复杂的系统。从芯片散热的角度来说,Chiplet不会使芯片整体功率降低,但在拆分后的表面积会增加,也就是说同等热设计功率下,单位面积内热流强度会降低。

从这里也可以看出一个趋势,那就是在AI芯片算力与能耗大幅提升的背景下,芯片散热问题,或者说热管理问题,已经不再是一个独立的学科,而是更加趋近于系统性工程,未来AI芯片的天花板,或许真的取决于散热技术的发展水平。

,谁能卡住小学课堂游戏 英伟达的脖子?

相关:

售价超28万!Caviar推出定制苹果Vision Pro:3斤18K黄金闪瞎眼快科技6月30日消息,Caviar是以为苹果iPhone系列打造奢华昂贵的替换外壳而闻名的俄罗斯奢侈品牌,旗下产品多用黄金、钻石等顶级材料制作,这也是它贵的主要原因。从Caviar官网了解到,日前,官方宣布推出定制版苹果Vision Pro头显,预计在2024年秋季开始订购,售价3.9万美元(约合28.9万元人民币),全球限量24台。Caviar定制版Vision Pro灵感来自于Tom Ford的翻转式眼镜和Gucci滑雪面罩,如同一件艺术品。与苹果原版Vision ..

不要和认知低的人较劲原创 洞见作者:洞见·瑾山月谁也不能走进别人的头脑,带他走出思维的迷宫。作家鲍鹏山的朋友,有一次参加电视台的访谈。录制的时候,大家讨论了一个“小孩子打人”的话题。轮到这位朋友发言时,他斩钉截铁地说:“单亲家庭的孩子,都有暴力倾向。”鲍鹏山一听,觉得这么说太过绝对,就给这人发信息:“孔子孟子也是单亲家庭,却都是温和有礼的人。你这样说,单亲家庭的孩子会很难自处。”随后,他从心理学谈到社会学,想纠正对..

被时代拍在沙滩上的Kindle燃次元(ID:chaintruth)原创作者|陶 淘编辑|曹 杨6月30日,Kindle电子书店正式结束了在中国的运营。事实上,早在一年前,亚马逊就已经宣布将于2023年6月30日起在中国停止Kindle电子书店的运营,此后用户将无法再购买新的电子书。对于已经购买的电子书,用户可以在2024年6月30日之前下载,并且可以在此后继续阅读。尽管Kindle的“离去”早有预告,但仍让不少老用户依依不舍。“6月30日之前,我已经在Kindle上囤了一批书,方..

江苏溧阳“红灯笼猪”喜提国字号,最少的时候仅存10头!日前,农业农村部发布公告,溧阳“红灯笼猪”通过了国家畜禽遗传资源委员会鉴定,这个溧阳传统养殖猪种正式成为国家级猪遗传资源。据悉,尽管红灯笼猪繁殖力强、产仔率高,具有良好的环境适应能力,并且肉质优良,但因原本种质资源保护意识缺乏,加上该品种猪瘦肉率低、生长速度慢等因素,这个有着悠久养殖历史的地方猪种曾一度处于濒危状态。传统优良猪种“深山藏”为啥叫“红灯笼猪”?该猪种毛色黑,唯独肚皮上是红的,母猪怀..

今天,黄家驹逝世30周年!文 | 河西30年前的今天,黄家驹在日本东京意外逝世,年仅31岁。今天,是他30周年的祭日。1962年6月10日,黄家驹出生在香港的一个劳工家庭,他在家中排行第四,有一个哥哥、两个姐姐和一个弟弟。他们一家七口住在九龙深水埗苏屋邨徙置区内茶花楼一个不到三十平方米的小单位。刚刚过去的6月10日,是他的61岁冥诞。黄家驹年少时,偶然从大姐的一些party中接触到一些20世纪70年代的摇滚音乐,其中包括深紫乐队、齐柏林飞艇等摇滚乐..

高速上小轿车追尾半挂车,4人死亡6月29日4时13分许,在G35济广高速下行线706KM+276m处(霍山至六安西方向),山东连成供应链有限公司一半挂牵引车与前方河北衡水八达物流有限公司一半挂牵引车发生刮擦,后一辆号牌皖SF8E93小轿车追尾前方山东籍半挂牵引车,导致小轿车上2人当场死亡,2人因抢救无效死亡。经初查,皖SF8E93号小轿自6月28日16时25许由广东深圳出发,山东籍半挂牵引车于6月28日19时45分由广东韶关出发,经长时间行驶于4时13分许发生事故,均涉嫌疲劳驾..

广东英德:禁止在耕地和永久基本农田上种植草皮广东英德市政府网站6月29日发布《关于禁止在耕地和永久基本农田上种植草皮的通告》,表示在耕地和永久基本农田上种植草皮、铲草带土的行为,占用永久基本农田发展林果业和挖塘养鱼,对耕地耕作层造成严重破坏,是违法行为。该通告的发出事件为2023年6月14日,限于2023年6月30日前整改到位。英德政府表示,为切实保护耕地,确保国家粮食安全,根据《中华人民共和国土地管理法》《中华人民共和国农村土地承包法》《基本农田保护条..

大巴被落石砸中致6死9伤,行车记录仪拍下事发瞬间29日,重庆市奉节县公平镇至红土乡路段,一辆客运车被山上落石砸中。29日晚,奉节县交通局发布通报表示,事故造成6人遇难、9人受伤。目前,救援工作已结束。一段对向车辆的行车记录仪显示,事发时多块巨石从山上滚落,直接砸到行驶中的客运车上。另一段现场视频显示,多辆救护车赶到现场,天空中还下着雨,有吊车正在现场救援。事发瞬间行车记录仪视频截图一名当地居民告诉极目新闻记者,她的朋友在事发时从对向车道驶来,目睹了..

“天坑专业”怎么越来越多?张雪峰“报新闻专业打断腿”言论引发的舆论涟漪,延宕时间远远超过预期。越来越多张雪峰关于志愿填报的言论被立体检视。批评张雪峰的人认为,他对于高等教育的理解过于功利和短视,他给所谓普通家庭、普通学生规划的道路也过于偏狭。但张的拥趸却持不同意见,他们认为张是“设身处地”站在普通人背景下以现实就业导向提出建议,他的不少说法虽然武断,但对懵懂的家长和考生仍有实用价值,那些批评张雪峰的人过于理想主义或是不接..

40度高温下的户外工作者:有人一天喝掉8升水文|《中国企业家》记者 胡楠楠编辑|姚赟头图来源|视觉中国拎着桶1升装的冰镇冰红茶,齐赫从街边的烟酒超市走了出来。这桶冰红茶刚出超市没多久,瓶身很快就附着了一层水滴,他也不知道这是今天第几次买水了。齐赫是一名外卖小哥,平时在北京大兴西红门附近跑单。近两周来北京进入动辄40度的“高温模式”,他便只能通过大量喝水的方式,对抗高温、预防中暑。“2块钱1.5升装的大桶矿泉水,我一天要喝四五桶。”齐赫说道。近日..