英伟达 IR call,信息量很大...

信息平权
推荐系统和生成式AI是最大的两个推理用例,其中推荐系统占40%中的20%;英伟达今年的推理收入确认来自去年的购买;GTC 80% 以上概率发B100。

英伟达 IR call,信息量很大

  • 产品可同时用于训练和推理,但NV的客户经理和解决方案架构师可通过客户提的问题判断用途,对每个客户account都有很强的可见性。

  • 最大的两个推理用例1)推荐系统,占40%中的20%(去年出卡150w,这个比例刚好是META的30w张) -电商和社交媒体的推荐系统。(META是一个很大的例子)…2)生成式AI - 早期已经进入生产的客户包括MSFT Copilot、ChatGPT、NOW、ADBE。

  • 去年这个比例要低得多。当客户为推理购买时,通常有几个季度的滞后时间直到建立推理。因此,今年的推理收入确认来自去年的购买。

  • 关于推理卡的竞争…几年前,大多数推理都是在CPU上完成的,人们认为推理更容易。但是,对响应时间的需求、图像生成和视频生成提高了推理计算需求的标准。模型不断创新、软件不断改进,这对NVDA有利。甚至在芯片升级之前,Tensor LT LLM仅通过软件就为LLM提供了2倍的速度提升。这就是与ASIC相比的好处延长了H100的使用寿命。

  • 供应紧张的关注…与其他终端市场相比,NV能直接看到最终客户,从设计最终客户的基础设施到服务器/网络的大小,然后客户决定通过谁走交付(ODM,分销商等)。仍处于“allocation mode”,比如优先从机架/网络的角度准备好了的客户。即便cowos供应终于赶上了,但仍在分配模式中

  • 对CY25年的可见性…通常没有这么远的可见性。客户通常不会提前4-6个季度预订。然而,已经有很多信号。了解垂直行业,他们自己的投资回报ROI。(回答了之前文章的问题,ROI决定了GPU投资的持续性)还将在新架构上继续ramp,更好的性能、降低客户的TCO,从而推动需求。在新架构开始时,供需往往不匹配。(我们之前说的,短期看都是供需噪音,长期看是持续紧张,因为迭代太快

  • 竞争格局…客户会从软件角度考虑他们的工作负载是否得到支持,或者是否存在软件优化的隐藏成本(暗示AMD?)。替代方案在性能上也有差距。通过MLPerf基准,你可以看到性能轻松拉开2倍差距。对客户来说不值得,因为他们还要承担数据中心的固定成本我理解是TCO比如能耗、维护),而节省的费用实际上并不能弥补这一点。性能=总拥有成本,才是客户真正在想的,而不是一个个芯片。

  • 关键的供应限制…有3个限制因素,内存、Cowos封装、网络对于H100,大部分已经缓解,现在接近结束分配(所以lead time 3个月很正常)。H200下个季度将采用新的HBM,可能又会看到限制(因为3E通过认证的现在就两家,海力士镁光)。新架构将更少地针对具体组件,ramp时更多是小批量。(我理解是unit下降但perf上升,GPU density继续提升,除个别如substrate HBM线性上升,其他部件不见得能跟上价值量增速)。

  • 从客户方面来看,数据中心功率密度是重点。大多数超大云厂提前2-3年就确定了数据中心容量,计划得很早。大多数公司延长了旧服务器的使用寿命,并将支出重新分配到加速计算上

  • 主权需求…作为数据中心的一部分相对较小,但却是价值数十亿美元的机会。主权AI仅被定义为该国境内的人工智能基础设施。可能是私人和国有资金的混合,通常由当地的电信公司资助。比如日本的软银,新加坡的星电信。

  • 企业需求拆分…略超过一半的是大型云服务提供商,接下来最大的是消费者互联网(电商和社交媒体)。其余是企业,包括GPU特定提供商(oracle,coreweave?据说coreweave 24年就订了近1w台)

  • B100过渡期…现在与客户的对话是在决定在H100、H200和B100之间的支出分配。这是一个迭代过程,因为它取决于供应情况。这不是一个升级,因为B100不是为了替换H100H100仍然会销售。当年过渡期的Ampere和Hopper在6个季度内也一起销售对H100的需求将会持续。(划重点)

  • 软件的好处…计算平台75%以上的毛利率包括大量软件(加速库、预训练模型、CUDA)在内。第四季度实现了10亿美元的年化收入,包括面向企业、GForce、DGX Cloud、vGPU、支持DGX系统的软件。

  • 本地部署的企业内部AI…鉴于基础设施的复杂性,大多数企业正在与云服务提供商接触以获取生成式AI服务。这是中期内增长最快的途径。从长远来看,大型企业将开始计划内部部署,处于成本考量。然而,云需求仍将增长,毕竟每美元的GPU支出中,云服务提供商收取4-5美元的GPU费用。

  • 中国的影响…需求有一定的波动,供应在分配过程中进行了调整。中国客户对新产品的初步评估阶段(H20),这些产品不需要许可证,但仍支持整个软件堆栈。对客户来说仍然有价值,因为它们运行在英伟达软件堆栈上。

  • 关于GTC的预期…将宣布新架构,业务各个部分都有更多新闻。

此外from sicong:

  • GTC 80% 以上概率发B100

  • 目前有兩個版本的B100ASP,  一個比較符合大众預期 3.8w(工业富联专家口径),一個是小众点的3-3.3w(MS Joe Moore提到了,如果价格激进,对AMD是巨大压力

  • 目前B100 出货时间也有两个版本,一個是3Q,一個是4Q,两种情形下出貨量大概差30w张。个人偏向4Q,因为KYEC的设备没那么快ready

微软对OpenAI的会计处理,某投行专门请了会计师来分析

根据微软-OpenAI研发协议,OpenAI托管在Azure的推理产生的收入被确认为Azure收入(也就是季报中的那个6%)但OpenAI使用Azure进行其模型训练的工作负载,并不被确认为收入(同样,也不在微软的COGS或资本支出中)。一位专业会计师来解释这种处理方式,并得出结论,微软可能在按照净额报告这些训练收入,而不是按Gross总额。美国财务会计准则委员会(FASB)的会计准则808(特别是第45节)规定了“合作安排”(通常称为合资企业)的会计处理方式。在公司A(微软)投资于公司B(OpenAI),然后公司B反过来使用这些资金从公司A获取服务(Azure计算)的情况下,公司A(微软)应将这种“交换”的收入净额化。

说到底微软采取了非常保守谨慎的处理方式,假设放在A股,别管这种“内循环”是否产生利润,还不得放到P&L里面虚增一把收入...

谷歌Demis认可了LLMs + Tree Search有可能实现AGI

“树搜索+LLM是一个非常有前途的方向。我们正在研究像AlphaGo这样的规划机制,也许还可以串联不同的想法或推理线索,并利用搜索来探索巨大的可能性空间。我认为当前的大型模型缺少这种能力(planning)。那么,AGI是否可能完全来自纯RL方法呢?理论上,我认为没有理由不能这样做,确实有一些人在DeepMind、谷歌和RL社区中正在这方面工作。然而,尽管如此,我认为最快、最可能的方式是利用现有世界中的所有知识,比如网络上的知识,以及我们收集的知识,加上我们拥有像Transformer这样可以scaling的算法,能够吸收所有这些信息。因此我猜测最终的AGI系统将包含多模态大模型作为整体解决方案的一部分,但可能还不够,还需要额外的规划和搜索。

The Information报道了Meta的Llama 3,认为大概7月发布,希望是能达到GPT-4水平,最大版本1400亿参数。但据说负责Llama2和3安全的研究员Louis Martin本月离开了该公司,负责强化学习Kevin Stone也于本月离职。

阿里NDR路演要点

管理层明确表示,“今年将是投资的一年”,关注三个重点:1) 重振电商的增长;2) 处置非核心资产;3) 资本回报4.5%(3%股份减少+1.5%分红)。公司将优先考虑GMV而非CMR(客户管理收入);费率不会是优先考虑的因素(尤其是考虑到淘宝相比天猫占比提高),并且会有一定的波动。公司承认拼多多的费率确实高于淘宝和天猫;他们估计拼多多的费率在10%以上,而淘宝/天猫的综合费率在中个位数。关于饿了么,虽然外卖被视为非核心资产,但管理层重申他们没有出售公司的计划,管理层称按需配送基础设施对淘宝-天猫业务具有战略意义,并将专注于提高效率和扩大规模。此外,菜鸟在市场条件合适的情况下不会排除上市的可能性。350亿的回购不只是一个上限,公司希望确保买满350亿。

张俊林大佬:关于Sora是否是物理世界引擎

diffusion model除了图片里物体间的空间关系,还可以额外学习到时间维度物体的运动规律,也就是物体的运动轨迹(苹果会从树上垂直落到地面),本质上是对物理世界4维时空的3维压缩(平面二维图像+时间维度),但是要注意的是:生成模型通过视频学会的是物体的运动规律和运动轨迹,但不是物理定律,它知道苹果应该朝下向着地面运动,因为它看过很多视频都是这样的,但这并不意味着它学会了牛顿的“万有引力”定律。没有人能只通过看到苹果下落就写出万有引力定律公式,包括牛顿也不行,牛顿能写出来也是经过大量实验以及抽象的推理思考才总结出来的。可以看出,图片/视频生成模型强在物体外在形象的表征、物体空间关系以及运动轨迹建模,但弱于抽象思考,即着于“色相”而弱于“法”

而语言模型LLM,是从大量人类语言中学习知识,语言本身就是一种抽象的产物,所以LLM擅长对抽象知识的建模和生成,本质上LLM在Transformer的参数空间内构建了一个由抽象概念编织成的“知识之网”,LLM是靠不同知识之间的相互关系而不是它的“色相”来定义具体知识的。但其对空间概念理解比较薄弱,比如它能生成“苹果在桌子上面”,但是估计不太理解“苹果在桌子左边”的空间布局是什么意思,这源于人类对空间关系的理解主要来自于视觉信道。另外,LLM知道某个概念但是并不知道这个概念对应的外在形象具体是什么样子。所以可以看出,LLM擅长抽象知识和抽象思考,弱于对于空间关系的理解,以及物体外在具体形象的理解。所谓LLM长于“法”而弱于“相”

但如果二者结合,图片/视频模型类似人类的右脑,擅长形象思维,负责形象世界的生成;LLM类似人类的左脑,擅长语言及抽象思考,负责抽象知识和物理法则的生成和语言描述,包括复杂物理世界规律的建模和表述。如果二者能配合好,在两者之间建立起良好的grounding,是有可能实现模型对物理世界的充分近似和理解。

被使用最多的GPTs是什么?

Will对GPTs做了非常详细的排名,你猜被使用最多的GPTs是什么,果然二级狗最勤奋...

本文作者:Jason,来源:信息平权,原文标题:《英伟达IR Call、量化DMA、微软OpenAI收入处理》,本文有删减

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章