百模大战引爆「千卡集群竞赛」,“中国英伟达”交卷了

2024-04-27 03:54:50 来源:网络

作者 | 三北

编辑 | 漠影

大模型正引发一波新的AI算力荒,从此前的芯片紧缺,上升为AI算力集群级的饥渴症。

根据产业链消息,参数可能仅30亿的Sora用4200-10500块H100训练了1个月;最新出炉的Llama 3 8B和70B的训练需要24000多块H100组成的集群;据称有1.8万亿参数的GPT-4是在10000-25000张A100上完成了训练……

OpenAI、Meta等都在用数千卡、甚至万卡串联,满足不断攀升的大模型训练需求,也给了我国大模型企业一本可参考的算力账。

然而,多位GPU算力集群业内人士告诉智东西,当下我国智能算力处于严重的供不应求状态。在GPU全球稀缺背景下,单卡性能已相对没那么重要,通过集群互联实现整体算力的最大化,成为解决AI算力荒的必要路径。

政策也已经紧锣密鼓地下发。4月24日,北京市经济和信息化局、北京市通信管理局印发《北京市算力基础设施建设实施方案(2024—2027年)》,方案提出,规划建设支撑万亿级参数大模型训练需求的超大规模智算集群,并对采购自主可控GPU芯片开展智能算力服务的企业予以支持。

产业这边的动作也没有落后。国内的头部算力厂商都已加速布局大规模智算集群,比如云服务巨头华为云打造了贵安、乌兰察布、芜湖3大AI云算力中心,头部AI芯片公司摩尔线程过去四个月也已在南京、北京亦庄和北京密云完成3座全国产千卡智算中心的落地,助国产大模型产业发展提速。

大模型产业发展对智算中心提出什么新要求?国内大规模智算中心建设的真实情况如何?如何让拔地而起的千卡甚至万卡集群实现从“建起来”到“用起来”的跨越?本文试图从摩尔线程等公司的实践,对这些问题进行探讨。

一、从Sora到Llama 3,千卡集群成百模大战标配

自2024年Sora、Claude 3、Llama 3等爆火模型推出以来,大模型的智能涌现态势不减反增,推动国内大模型厂家加速追赶,对AI算力的需求也持续升级。

国产大模型玩家无论是要持续攀登Scaling Law(规模定律)高峰,还是走行业大模型的捷径,都迫切需要更大规模算力;同时大模型向多模态方向发展,需要处理包括文本、图像、声音等多种类型的数据,亟需全功能的GPU;而行业大模型甚至需要算力厂商充当起“全栈式生态服务平台”角色,服务大模型落地的“最后一公里”

在这些多样化新需求驱动下,将芯片系统组合起来的新型千卡智算中心,成为满足大模型产业落地的重要抓手,也成为大国AI较量的标配新基建

产业先锋已经纷纷展开行动,国内头部AI芯片公司摩尔线程在过去四个月里加速布局了三座千卡算力集群,通过自家夸娥(KUAE)智算中心解决方案为大模型打造智算底座,开箱即用,助大模型企业解决大规模GPU算力的建设和运营管理问题。

基于夸娥打造的智算中心已经初见落地成效。目前,摩尔线程支持包括Llama、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模型的训练和微调。基于摩尔线程夸娥千卡集群,70B到130B参数的大模型训练,线性加速比均可达到91%,算力利用率基本保持不变。

以2000亿训练数据量为例,智源研究院700亿参数Aquila2可在33天完成训练;1300亿参数规模的模型可在56天完成训练。此外,摩尔线程夸娥千卡集群支持长时间连续稳定运行,支持断点续训,异步Checkpoint少于2分钟。

从传统的“重硬轻软”走向“软硬一体化”,成为这批新智算集群的普遍特点。摩尔线程夸娥就是一个软硬一体化的全栈解决方案,包括基础设施集群管理平台模型服务,据称可全方位降低传统算力建设、应用开发和运维运营平台搭建的时间成本。

54位大咖演讲精华!中国生成式AI大会圆满收官,TOP50企业榜单揭晓

▲夸娥(KUAE)智算中心解决方案架构

基础设施:包含夸娥计算集群、RDMA网络与分布式存储。摩尔线程夸娥千卡模型训练平台,建设周期只需30天,支持千亿参数模型的预训练、微调和推理,可实现高达91%的千卡集群性能扩展系数。基于MTT S4000和双路8卡GPU服务器MCCX D800,摩尔线程夸娥集群支持从单机多卡到多机多卡,从单卡到千卡集群的无缝扩展,未来将推出更大规模的集群,以满足更大规模的大模型训练需求。

KUAE Platform集群管理平台:用于AI大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台,深度集成全功能GPU计算、网络和存储,提供高可靠、高算力服务。通过该平台,用户可灵活管理多数据中心、多集群算力资源,集成多维度运维监控、告警和日志系统,帮助智算中心实现运维自动化。

KUAE ModelStudio模型服务:覆盖大模型预训练、微调和推理全流程,支持所有主流开源大模型。通过摩尔线程MUSIFY开发工具,可以轻松复用CUDA应用生态,内置的容器化解决方案,则可实现API一键部署。该平台意在提供大模型生命周期管理,通过简洁、易操作的交互界面,用户可按需组织工作流,大幅降低大模型的使用门槛。

54位大咖演讲精华!中国生成式AI大会圆满收官,TOP50企业榜单揭晓

▲夸娥(KUAE)智算中心解决方案支持端到端一体化交付

二、从“建起来”到“用起来”,夸娥突破4道难关

过去一年,我国千P级智算中心的智算基建布局集中爆发,根据工信部发布数据,截至2023年10月我国算力规模超300EFLOPS,智能算力占比高达35%。然而,国内的千卡智算中心仍处于发展初期,面临严峻挑战。

多位智算业内人士告诉智东西,我国智算中心建设既面临算力供应链问题,同时大规模内网互联、存储高速吞吐、模型优化服务、平台生态服务等技术因素也造成智算平台建设的技术瓶颈

摩尔线程相关负责人谈道,集群建设是一个系统性复杂工程,从GPU显卡到服务器,最后把它组成集群,这里面包括了硬件的网络、存储、软件,再到大模型调度,是一个全栈式的工程,要真正把它做好,需要一个端到端的交钥匙方案。

从客户角度来讲,他们对千卡集群的算力利用率、稳定性、可扩展性兼容性的需求最为突出。这也成为千卡集群建设要迈过的四道难关,摩尔线程为此做足了准备。

1、软硬协同,算力利用率提升超50%

算力利用率(MFU)是衡量智算中心能力的一个核心指标。即便是OpenAI在早期也面临MFU瓶颈,根据公开资料,其MFU在GPT-3训练阶段仅为21.3%,近79%的算力都被浪费了。

摩尔线程采用软硬协同设计、端到端的并行策略,使得综合调优下算力利用率(MFU)提升幅度超过50%。夸娥通过集群通讯库算法、网络拓扑、硬件规格合理设计和配置,优化集群匹配度;技术上,夸娥集群通讯算法网络拓扑综合利用了MTLink和PCIe,使得通讯性能提升一倍。

2、从芯片出厂开始,保证稳定可靠性

对于分布式训练而言,一张卡坏了,整个训练都会停掉。对于一个大规模集群来说,例如千卡甚至更大的集群,卡坏的概率会更高。所以,在做千卡集群或者更大规模集群时,它对整个集群的可靠性要求会更高。

摩尔线程从卡的出厂开始保证算力质量,做了很多严格的测试;开发了集群系统监控和诊断工具,帮助筛选和快速定位到有问题的卡和服务器,可以自动恢复和硬件替换;做了checkpoint加速,写的时间从10分钟降到秒级,读的速度从40分钟降到2分钟;判断训练异常,系统自动重新拉起。

3、提高可扩展性,线性加速比达91%

算力集群规模达到千卡,更是一个可扩展性的挑战。夸娥支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架,并融合了多种并行算法策略,包括数据并行、张量并行、流水线并行和ZeRO,且针对高效通信计算并行和Flash Attention做了额外优化。

同时,夸娥结合了摩尔线程显卡硬件能力,以软硬一体的方式,做了系统级优化,包括从硬件、软件再到集群,外加云的全栈,不是单点突破,是一种全局综合方案,从而使得线性加速比达到91%。

4、零成本CUDA代码移植,兼容多个主流大模型

基于摩尔线程代码移植Musify工具,可快速将现有的主流迁移至MUSA,零成本完成CUDA代码自动移植,之后用户短时间内即可完成热点分析和针对性优化,大大缩短迁移优化的周期。此外,借助摩尔线程元计算统一系统架构MUSA,用户可以复用PyTorch开源社区的大量模型算子,降低开发成本。

与此同时,摩尔线程开源的MT Pytorch可以支持多种模型的推理,覆盖CV、NLP、语音等多个领域,能够运行典型的大模型分布式多卡推理,也可以支持单机多卡与多机多卡的分布式训练。利用数据并行、模型并行以及ZERO等分布式训练技术,MT PyTorch还可以完成简单基础模型以及典型Transformer结构的NLP语言模型的训练。

54位大咖演讲精华!中国生成式AI大会圆满收官,TOP50企业榜单揭晓

▲夸娥(KUAE)智算中心解决方案八大优势

总的来说,传统的计算模式在大模型时代面临着多重难点,只有长期投入并加强架构创新、软硬结合、场景结合、兼容协同等举措,才能够让智算集群完成从“建起来”到“用起来”的跨越。

三、国产大模型的超车时刻,“中国英伟达”交卷

打破英伟达对AI的垄断,国内外玩家都进入了一个“交卷”时刻。

在国外,我们看到亚马逊、微软、谷歌都已推出了面向大模型的AI定制芯片,对英伟达芯片进行部分替代,从而保证自家大模型持续可迭代和落地。

在国内,华为、摩尔线程、寒武纪、海光等头部AI芯片厂商,软硬件生态也已初具规模,技术架构自成一体,且已拥有集群能力和落地场景;同时多家AI芯片创企也在推动产品落地和量产,抢占大模型市场。

在备受关注的国产GPU领域,摩尔线程作为“中国英伟达”的主力选手,也已经打造了全栈AI方面的护城河。以全功能GPU为算力底座,摩尔线程夸娥提供从卡(MTT S4000)、服务器(MCCX D800)到千卡集群(K1、K2、K3)的完整智算产品组合,通过软硬一体化的服务,将成为大模型企业的最佳选择之一。

近日,摩尔线程正与无问芯穹联合推进基于夸娥千卡集群的“MT-infini-3B”合作大模型实训,目前性能已在同规模模型中跻身前列。无问芯穹联合创始人兼CEO夏立雪表示:“经无问芯穹Infini-AI平台实训与联合优化工作验证,摩尔线程夸娥千卡智算集群在精度、性能、易用性和算力利用率上均有优异表现,且在实训中实现了长时间稳定训练不中断,已可以为千亿参数级别大模型训练提供持续高效的高性能算力支持。之后我们会把这一合作模型在Infini-AI上开放给大家使用。”

随着今年“AI+”首次被写入两会工作报告,AI算力成为新质生产力的重要引擎,国产大模型进入关键的超车时刻。业内人士告诉智东西,今年大模型会出现一个拐点,同时也是国产AI芯片的分水岭,强者越强,弱者愈弱。

摩尔线程自2022年起就成立云计算团队,设定了建设千卡集群的大方向。在当时A100等算力紧张的背景下,摩尔线程作为在功能上唯一对标英伟达的国产GPU企业,在具备云的全栈能力后,构建基于全功能GPU的国产千卡智算集群,成为了国内赛道“第一批吃螃蟹的人”。随着大模型的爆发,摩尔线程夸娥智算中心解决方案已经完成从0到1的建设,有望成为国产大模型发展的重要引擎助力。

结语:国产大模型跨越时,千卡集群打造加速度

从ChatGPT到Sora,大模型之战已经愈演愈烈,国产大模型迫切需要加速追赶跨甚至超越,这催生了市场对更大规模、更高性能的计算资源的迫切需求,也推动计算中心的架构及运营模式进行更新换代。

千卡集群、万卡集群是满足AI算力需求的抓手,这一理念已逐渐深入人心。然而这种大规模智算集群的隐形壁垒越来越高,要求算力厂家在芯片、调优、通信及系统性开发和管理等多方面下功夫,从而真正跑出大模型产业发展的加速度。

,百模大战引爆「设计比赛 千卡集群竞赛」,“中国英伟达”交卷了

相关:

【文化中国行】老街区生活的变与不变  传承文化基因,融入现代生活——   【文化中国行】老街区生活的变与不变   蔷薇花开、清风拂面,春日的早晨,走在位于江苏省无锡市的清名桥历史文化街区,一幅诗意的江南水乡画卷铺陈在眼前。4月22日,记者在街区里看到,一位居民搬出了小凳,坐在家门口摘菜,身边摆放着10多盆绿植。   以清名桥为中心、古运河为轴,清名桥历史文化街区有着“江南水弄堂、运河绝版地”的美誉。街区内文物遗址品类丰富,集寺、塔、..

官方确认:国药集团原总工程师杨晓明涉嫌严重违纪违法全国人民代表大会常务委员会4月26日公告提到,西藏自治区人大常委会决定罢免杨晓明的第十四届全国人民代表大会代表职务。依照《中华人民共和国全国人民代表大会和地方各级人民代表大会代表法》的有关规定,杨晓明的代表资格终止。另外,依照《中华人民共和国全国人民代表大会和地方各级人民代表大会选举法》的有关规定,杨晓明的第十四届全国人民代表大会民族委员会委员职务相应撤销。澎湃新闻注意到,根据全国人民代表大会常务..

制糖工厂发起首个以旧换新主题活动在「世界地球日」期间,数字潮牌爱范儿旗下品牌制糖工厂 CANDYSIGN 发起「换一条,更好」以旧换新主题活动。用户携任一废弃数据线,即可免费换取一条全新制糖工厂贴贴线活动在广州两大标志性地点——T.I.T 创意园糖厂和先锋建筑未来社 HOUSE 设立了回收点,吸引了周边腾讯微信总部、Mo&Co、药师帮等企业员工及周边市民的广泛参与。▲高峰时段队伍绵延达 30 米之长,体现了社会各界对环保事业的热情支持。在改善 500 人..

景德镇一小学生在校坠楼身亡,官方成立调查组情 况 通 报2024年4月25日上午,我区一小学六年级学生余某某在学校坠楼,经抢救无效死亡,我们对此深感痛惜。我局已会同公安等部门及相关街道成立联合调查组,依法开展调查核实工作,事件调查和善后处理等工作仍在进行中。昌江区教体局2024年4月26日

段宇飞被查,广东卫健系统连续3任主官落马据广东省纪委监委消息,广东省卫生健康委原党组书记、主任段宇飞涉嫌严重违纪违法,目前正接受广东省纪委监委纪律审查和监察调查。段宇飞 资料图段宇飞生于1961年4月,湖南资兴人,1976年10月参加工作,1978年考入韶关卫生学校医疗专业大专班学习,毕业后留校任教,历任学生科副科长,副校长,校长、党委书记等职。在任职韶关卫生学校期间,段宇飞参加了湖南医科大学临床医学本科师资班和广东省委党校经济学专业在职研究生班的..

岭南画派再传弟子欧豪年逝世,享年90岁4月26日凌晨,岭南画派大家欧豪年先生在中国台湾逝世,享年90岁。1935年欧豪年生于广东吴川一书香世家。他的祖父曾任晚清皇室光禄寺正卿,伯父是民国初年北京大学学士,父亲、叔父及兄长多人入读中山大学、厦门大学等学府。年少的欧豪年受翰墨濡染,对书画产生了浓厚的兴趣。1950年欧豪年随父母迁居香港,次年岭南画派大师赵少昂从欧洲回到香港,17岁的欧豪年开始跟随赵少昂先生学习绘画,赵少昂承岭南画派的传统,主张革新中国..

高通 X Plus 芯片发布,性能超越 M3,AI 能力是亮点经过数个月的多重爆料、预告、甚至「下战书」后,高通终于在 24 日推出了骁龙 X Elite ,以及全新层级的骁龙 X Plus 芯片。这两款芯片不仅仅是骁龙迄今最强 PC 芯片,也是市面上最顶级的 AI PC 芯片之一,甚至还是微软振兴 Windows on Arm 的最大希望。骁龙 X Elite 的主要参数已经在去年的骁龙峰会上曝光,我们来看看这款新的骁龙 X Plus 还有什么惊喜。「刀法精准」的骁龙 X Plus首先看看骁龙 X Pl..

中美达成五点共识2024年4月26日,中共中央政治局委员、外交部长王毅在北京同美国国务卿布林肯举行会谈,双方在全面交换意见基础上形成五点共识。第一,双方同意继续按照两国元首指引,努力稳定并发展中美关系。双方肯定旧金山会晤以来中美各领域对话合作取得的积极进展,同意加快落实两国元首在旧金山达成的重要共识。第二,双方同意保持高层交往和各层级接触。继续发挥已经恢复和新建的外交、经济、金融、商务等领域磋商机制作用。继续开展两军..

侵占数百万美元国有土地,乌克兰农业部长被捕(观察者网讯)据法新社、路透社、《基辅独立报》等媒体报道,当地时间26日,因涉嫌非法侵占超700万美元的国有土地,乌克兰农业部长米科拉·索利斯基被乌反腐败高等法院拘留。乌国家反腐败局表示,2017年至2021年间,索尔斯基在担任一家大型农业公司的负责人和议会议员时,涉嫌非法收购价值2.91亿格里夫纳(约735 万美元)的国有土地,并企图侵占另一块价值 1.9 亿格里夫纳(约480万美元)的土地。在25日的法庭听证会上,乌克..

中新健康丨专家呼吁关注”蓝唇族“ 应尽早干预、联合治疗  中新网上海4月26日电(记者 陈静)肺动脉高压患者因缺氧常导致劳累后诱发疲劳、呼吸困难、胸闷、胸痛甚至晕厥,且多呈现嘴唇发蓝泛紫,被称为“蓝唇族”。   在第13个世界肺动脉高压日到来之际,上海市肺科医院循环科主任王岚教授26日接受记者采访时呼吁全社会提高对“蓝唇族”的认识水平和关注度,让联合治疗、尽早达标等规范化诊疗惠及更多患者。   王岚教授介绍,肺动脉高压是指肺血管结构或功能改变,引起肺血管..