英伟达新“王炸” 未发先难产
继B200/GB200芯片交付推迟后,王炸英伟达或又面临新品难产的英伟问题。
12月24日,达新据Wccftech报道,先难英伟达最新旗舰芯片B300/GB300的王炸参数已经确认。其中B300的英伟显存规格从上代产品的192Gb提升至288Gb;GB300平台将首次使用LPCAMM内存模块设计,并配备带宽提升至1.6Tbps的达新光模块,以确保数据高速传输。先难
在性能大幅提升的王炸同时,B300/GB300的英伟功耗也被拉到史无前例的高度,TDP(热设计功耗)达到1400W。达新作为对比,先难Hopper架构的王炸拳头产品H100芯片,其TDP为350W。英伟
这对于服务器的达新散热设计来说,无疑是个巨大的挑战。
而就在上周,天风国际分析师郭明錤在研报中表示,英伟达在为B300/GB300开发测试DrMos技术时,发现芯片存在严重的过热问题,这可能会影响B300/GB300的量产进度。
尽管黄仁勋此前曾多次表示,英伟达未来将严格遵循“一年一换代”的原则,但旗下GPU在改用Blackwell架构后,不止一次出现“跳票”的情况。
Blackwell架构,真有问题?
在郭明錤发布的研报中,指出了B300/GB300目前面临的问题:由AOS(Alpha & Omega Semiconductor)公司提供的5*5 DrMos方案在测试中过热。
先来说说DrMos是什么。
这是英特尔在2004年推出的技术,主要原理是将驱动器和MOS集成在一起,以减小多个元件的空间占用以及降低寄生参数带来的负面影响,从而提升转换效率和功率密度。
简单地来说,它就是一个高度集成的电源解决方案。
消费级显卡RTX3060上的DrMos,由AOS供应
在英伟达Hooper架构芯片上,包括H100/A100/H800/A800在内,其DrMos方案全部由MPS(Monolithic Power Systems)供应,可能是基于“不把鸡蛋放在同一个篮子”的原则,在Blackwell架构芯片上,英伟达开始测试AOS的方案。
那是否能说明,AOS应该为B300芯片的过热问题“背锅”呢?
恐怕并不能。
首先,AOS的5*5 DrMos芯片是一款散热能效高,且十分成熟的方案设计,这在行业内已经得到广泛验证。
其次,郭明錤的财报中也提到了,有产业链人士指出,B300的发热问题除了DrMos芯片本身之外,还源于系统芯片管理的设计不足。
这已经不是Blackwell第一次被曝出存在设计问题。
今年8月,据《The Information》报道,B200在台积电流片过程中,发现设计存在缺陷。
起初业内认为可能是台积电的N4P制程工艺存在问题,但在与高盛的投资人沟通会中,黄仁勋说出了问题所在:由于GPU芯片、LSI桥、RDL中介层和主板基板之间的热膨胀特性不匹配,导致封装结构出现弯曲。
“100%是英伟达的责任。”
在芯片设计被曝出缺陷后,B200/GB200芯片的交付时间从今年3季度被推迟至4季度。而且从实际情况来看,现阶段仍没有公司拿到B200芯片,从公开资料中得知,马斯克凭借10.8亿美元的订单,获得了B200芯片的优先交付权,这些芯片将被用于增强xAI的超级计算集群Colossus。
而即便是获得优先交付权xAI,也得等到明年1月份才能收到B200芯片。
回到B300芯片上,这是一枚原定在明年3月GTC大会上发布的旗舰产品,现在却面临“未发布先难产”的问题。
完全垄断AI服务器芯片的英伟达,为什么会在Blackwell上一再翻车。
一个很重要的原因是,英伟达过于追求芯片性能上断代领先,从而导致Blackwell系列芯片作为量产型产品,几乎变成一个实验性平台。
比如CoWoS-L封装技术的应用。
这里需要说一个背景是,Blackwell是一枚基于MCM(多芯片封装)设计的GPU,即在同一个芯片上集成两颗GPU die。
为了配合英伟达的需求,台积电方面首次将CoWoS-L技术应用在这枚芯片的封装上。而在此之前,CoWoS-L封装也没有经过大规模验证。
有业内人士指出,CoWoS-L封装现阶段的良率可能在90%左右,作为一项后段工艺,这个数字很不理想。
需求是否过于乐观?
在Blackwell架构芯片推出后,知名华尔街投行Keybanc Capital Markets曾发出了一份预测:
“Blackwell芯片将推动英伟达数据中心业务的收入,从2024财年(截至2024年1月)的475亿美元增长到2025年的2000多亿美元。”
众所周知,在大模型的训练与部署中,英伟达的GPU居功至伟,但BlackWell架构芯片真的能凭一己之力带动业绩翻倍上涨吗?
即便忽略掉B200/B300的延期交付问题,仅从市场需求来看,可能并不是特别的乐观。
对于各大互联网公司来说,一个首当其冲的问题是,如果大规模引入基于Blackwell芯片的服务器,那么算力中心的建设成本将会被大大提高。
因为B200芯片高达1000W的TDP实际上已超过了传统风冷散热的极限,许多服务器厂商为了解决散热问题,不得以堆砌3D VC(真空腔均热板)的数量和面积,由此导致在42U的标准服务器机柜中,可容纳的芯片越来越少。
而到了B300芯片上,风冷散热方案无论如何修修补补都无法压住1400W的功耗,必须全面改用液冷。
但对于已经搭建好计算中心的厂商而言,改用液冷会导致其成本骤增。比如在传统服务器机房中在搭建时都会对空调系统进行重点设计,一些大型计算中心的空调系统可以支持0°以下的送风。
如果改用液冷,则意味着在加入配套基础设施的同时,过去花大价钱打造的空调系统沦为闲置。
另外就是服务器本身的价格问题。现阶段,一组基于GB200的AI服务器根据带宽配置的差异,定价约在200-300万美元之间,而如果这些服务器全部基于GB300改用液冷方案,价格甚至可能会翻倍。
还有一个很重要的问题是,市场对于最先进GPU的需求是否强烈?
就在12月14日的NeurIPS大会上,OpenAI联合创始人Ilya Sutskever)表示,大模型预训练即将结束,因为AI的化石燃料“数据”已经用尽了。
如果Ilya的判断没有问题,一个显而易见的转变将是大模型的研究重心将从训练转向推理,在这样的背景下,虽然英伟达Blackwell系列芯片具备强大的“训推一体”能力,但有多少厂商未来愿意持续性地高成本投入,还有待观察。
(责任编辑:知识)
-
2024年西甲助攻榜:巴埃纳15助居首,亚马尔14助&拉菲尼亚10助
12月23日讯 2024年的西甲比赛战罢,媒体统计了球员今年在西甲比赛中的助攻数量,并列出榜单,巴埃纳15助居首,亚马尔14助次席。2024年西甲助攻榜:巴埃纳比利亚雷亚尔)——15亚马尔巴萨)——1 ...[详细] -
这拉菲太香了🤯拉菲尼亚21场16球10助,战拜仁戴帽战皇马传射!
12月04日讯 西甲第19轮,巴塞罗那5-1马洛卡。拉菲尼亚本场上演梅开二度,据德转数据统计,拉菲尼亚本赛季代表巴萨各项赛事出战21场,打进16球并送出10次助攻。其中,西甲联赛16场11球8助。拉菲 ...[详细] -
情景解密互动视觉小说游戏《还有一个问题》现已正式推出 获得好评
由OrangeSounds打造的情景解密互动视觉小说游戏《还有一个问题One More Question)》,现已在Steam平台正式推出并获得好评。本作是一款利用“情境谜题”概念的游戏,它为熟悉的测 ...[详细] -
[流言板]持续高效!福克斯翻身后仰空心入网,目前3中3得到11分4助攻
[流言板]持续高效!福克斯翻身后仰空心入网,目前3中3得到11分4助攻由篮球资讯发表在篮球资讯 50212月22日讯 NBA常规赛湖人对阵国王的比赛正在进行中。第二节比赛中,福克斯翻身后仰空心入网,目 ...[详细] -
12月27日消息,最近,中国自主DDR5 DRAM内存芯片投产并商用落地的消息,在业内引发震动。慧荣科技总经理苟嘉章坦言,中国产DRAM的市场份额有望快速升至15%,对全球DRAM市场是一个极大的变数 ...[详细]
-
12月4日讯库普梅纳斯入选意大利球员协会2023-24赛季最佳阵容,球员出席颁奖典礼并接受采访,谈及效力尤文、主帅莫塔、意甲争冠等话题。获奖“我想说一件比今晚更重要的事:我想让整个尤文大家庭给博维一个 ...[详细]
-
舍伍德:西汉姆很糟糕而莱斯特城值得称赞,前者踢得毫无结构可言
12月4日讯英超第14轮,西汉姆1-3不敌莱斯特城,在接受采访谈及这场比赛的时候,舍伍德表达了自己的看法。舍伍德说:“西汉姆替补席的球员比场上球员更出色,我简直不敢相信他们在中场线是如何防守的,那毫无 ...[详细] -
Steam好评如潮 《Fate/stay night复刻版》销量突破10万
12月20日,发行商Aniplex和开发商TYPE-MOON宣布,奇幻动作视觉小说《Fate/stay night复刻版》全球销量已突破10万份,该作于2024年8月7日登陆了Switch和Steam ...[详细] -
索尼影业首席执行官托尼不理解近期上映的《猎人克莱文》为何会失败,该片创下托尼职业生涯最糟糕首映票房。《猎人克莱文》本月14号在北美及中国大陆首映,北美票房1100万美元,全球票房4300万美元,其灾难 ...[详细]
-
虽然定价不菲,但很多玩家依然愿意为《第一后裔》中的角色皮肤买单,其中最热门的自然是泳装和一些“终极”皮肤,玩家买皮肤的原因不言而喻。而其中一款也非常好看的皮肤是角色沙恩的“扭曲信仰”修女外观。在发售后 ...[详细]