算力是人工智能大模型训练的核心生产力,随着AI大模型的快速发展,智能算力需求正呈现爆发性增长态势。据IDC 发布的《2023-2024年中国人工智能计算力发展评估报告》测算,2022年我国智能算力规模达260EFLOPS(每秒百亿 亿次浮点运算次数),预计到2027年我国智能算力规模有望突破1117EFLOPS,中国智能算力规模年复合增长率将高 达33.9%。预计到2030年,人工智能驱动的全球算力将增长500倍,一个千亿级智能算力蓝海市场已悄然开启。
大模型爆发带来算力需求激增,其成功背后有着万张训练卡的计算资源支撑。当前,热门生成式大模型现阶段训练主 要依赖以A100/H100为代表的高性能GPU算力,其不仅能提供高效的数据的传输能力,还可以尽可能减少算力闲置。
GPT等AI大模型的爆火带动超算集群背后的高性能GPU需求急剧增加,供需失衡导致卡价格大幅上涨,交付周期明显 拉长。
市场需求高涨、产能有限双重驱动导致供需失衡,高性能GPU市场供应持续紧缺,价格不断上涨。据IDC数据显示, 英伟达A100价格2022年12月份至2023年4月上半月期间,5个月价格累计涨幅即37.5%,2023年5月A100 GPU市场单 价达15万元。而A800同期累计涨幅达20%, 5月A800 GPU市场单价达9.5万元。
由于技术代际差距和使用生态习惯,近年来我国人工智能算力芯片市场仍主要由英伟达主导。据IDC数据,2022年中 国AI加速卡出货量约109万张,英伟达以85% 市占率保持着较高的竞争优势。然而,在贸易对抗和科技禁运的背景下, 包括英伟达A800/H800在内的多款高端芯片被禁止对中国供应,中国AI大模型算力面临缺卡的困难,短期内挑战严峻。
存量资源利用:为应对供应短缺,国内企业纷纷转向利用现有存量资源,包括优化现有设备配置、提升设备利用率等。
租赁需求爆发:在成本压力和市场需求的双重驱动下,企业“由买转租”的趋势愈发明显,GPU算力租赁需求迎来爆发 式增长。
算力租赁:将计算能力或云计算资源以租赁的方式提供给用户使用。允许用户通过租用他人的计算设备或云服务器来 满足其计算需求,而无需自己购买和维护硬件设备。
用户只要按需付费,不用承担硬件设备的采购、维护、升级等费用,也不用担心设备闲置或者过时造成浪费;
用户可根据需求选择不同算力平台和机型,不受地域或者时间的限制模型、工具等资源,进行更多的尝试和探索。
AI算力租赁的商业本质为具有大模型训练需求的软件研发厂商向具有GPU资源的厂商租赁GPU算力。出租方利润来源 主要是租金收入减运营成本,其运营成本主要包括固定资产折旧亚星游戏官网,数据中心日常运营、IDC机房租金以及人员成本等。
AI算力租赁市场中,租金的计量方式因租赁双方的需求和资源状况而异。目前市场上常见的三类租金计量方式如下(三类计量方式间可相互换算)
按整台服务器租赁:以每台服务器(含8张GPU)为单位进行计量,租金按照每台每月的标准收取,适用于需要长期 稳定使用大量GPU资源的客户;提供最新Nvidia GPU卡的同时具备低服务器运维成本。
按算力规模租赁:租金按每P每年计量,可以根据算力需求选择合适的算力规模,实现更加灵活的资源配置;
按单张GPU租赁:租金按照每GPU每小时计量,适用于短期或临时性的算力需求,可以根据实际需求随时调整卡的租 赁数量。
在AIGC时代的大潮中,中国企业亦须紧跟AIGC时代潮流,积极寻求提升自身AI能力的途径,而这对应较大的算力水 平需求。
在当前市场环境下,适用于AI计算的高性能GPU供不应求,许多AI公司无法购买到足够的计算卡来搭建自己的算力集 群,而算力租赁可以高性价比缓解当下算力短缺的困局。
算力租赁是当前中小企业解决算力需求的最优解之一。目前,除了少数大型互联网企业自身资金实力充沛,可购买较 多的GPU,算力储备较充足之外,剩下中小企业普遍面临算力紧缺,算力租赁需求突出。
对于规模较小的公司,购买GPU搭建算力集群的投入成本过高,租赁外部算力相对自建算力更合算、灵活。
自建集群规模固定、可扩展性较弱、可靠性较差,中小企业的算力需求往往难以通过自建算力设施解决,而算力租赁 可有效降低除硬件成本外的维护、升级等长期投入,使其直接享受高性能算力的便利,以快速响应市场变化,把握发 展机遇。
算力租赁市场现有商业模式:基于硬件资源的按需租赁和按量付费模式。面对激烈算力租赁竞争,多元算力融合成为 关键,算力市场将更加重视辅助运营服务,从提供硬件资源逐步转变为提供算力服务。
算力调度:通过智能分配策略实现算力的灵活流动,进一步解决算力需求与资源分布不均的矛盾,快速满足上层应用 多样化的算力需求,助推数字经济进入普惠共享的新阶段。
提供整体AI解决方案:以GPU云为例,其除了提供算力外,还包括了如AI软件开发相关的增值服务,是未来算力租赁 的进阶方向,增值潜力高。
算力调度是根据算力资源提供方的供给能力和应用需求方的动态资源需求,整合区域内算力基础设施底层的计算、存 储、网络等资源,基于算力调度平台对算力资源进行一致性管理、一体化编排和统一调度,可以整合多张算力卡 来应对外围禁售、优化算力资源配置,是解决算力供需矛盾、算力网络传输问题、算力资源普惠问题的新型能力体系。
“以网强算”是发展算力网络的根本路径。算力网络可以实现云、边、端算力的高效调度,吸纳全社会算力资源,组 成泛在、立体的算力网络,实现智能调度和全局优化。
全国一体化算力算网调度平台综合集成网络情况+综合算力+算力调度“三位一体”推动我国算力算网调度发展。平台 汇聚通用算力、智能算力、高性能算力、边缘算力等多元算力资源,针对通用、智算、超算等不同客户需求,设计异 构资源池调度引擎,实现不同厂商的异构资源池的算力动态感知与作业智能分发调度。在AI训练作业调度流程中,作 业可在智算资源池上进行训练推理,在通用算力资源池部署,从而实现跨资源池/跨架构/跨厂商的异构算力资源调度。
整体AI解决方案重视全栈客户体验:从设备到算力亚星游戏综合,基于客户全场景需求,围绕算力咨询、建设和运营等全周期, 提供端到端全栈专业服务,全程护航算力集群建设、人工智能创新、产业聚合发展。
自动化流程:通过收集和解释输入其中的大量数据,可以利用人工智能解决方案来确定流程中的下一步并无缝执行。
数据分析与解释:创建结构化和非结构化数据的知识库、分析和解释数据,根据其发现做出预测和建议。
DGX Cloud:集成一流软件的AI超级计算服务。可直接访问 NVIDIA AI 专家,近乎无限地访问高性能计算,为开发人 员提供行业领先的利用效率、规模和高效工作能力,使企业能够立即访问为生成AI和其他突破性应用程序训练高级模 型所需的基础设施和软件。DGX Cloud实例价格为每实例每月36999美元起。
DGX Cloud租赁服务提供访问NVIDIA云计算机的机会,硬件出类拔萃,性能卓越,其每台计算机都配备了强大的 H100或A100 GPU以及高达640GB的GPU内存,为企业进行深度学习、机器学习等计算密集型任务、运行复杂的人工 智能应用程序提供了强大的支持;提供企业按月租用的专用基础设施,确保可以快速开发大型多节点训练工作负载。
商业模式:将DGX Cloud 托管在各家云服务商的云平台上提供服务,即NVIDIA 将基础硬件设施出售给云厂商,再向 其购买云计算资源,最后把云服务出售给企业客户并自留全部收入。
Azure AI:使用 Azure AI 组合构建企业规模的智能应用,为计算密集型 AI 工作负载(包括深度学习)提供高性能性 能,加速AI创新。Azure 的领先云 AI 超级计算基础结构和端到端机器学习功能提供了构建、训练和部署苛刻的 AI 工 作负载所需的最佳性能、可伸缩性和内置安全性。从训练复杂的 AI 模型到深度学习和推理,Azure提供以Microsoft负 责任的AI原则为支撑的解决方案,确保工具链的一致性。
Azure 虚拟机:用于灵活地虚拟化各种计算解决方案,支持 Linux、Windows Server、SQL Server、IBM 和 SAP 等。 收费方式:即用即付,以秒为单位为计算容量付款,无需长期承诺或提前付款。可按需增加或减少使用量。
Azure ND H100 v5 虚拟机(VM)系列:Azure功能和规模最大的 AI 虚拟机系列,用于应对先进的 AI工作负载带来的 日益增加的复杂性,为最复杂的生成式 AI 模型获取超计算性能。优势如下:
新一代计算机处理单元(CPU): Intel Xeon Scalable 处理器确保虚拟机达到最佳的处理速度;
大规模的内存和内存带宽:DDR5 内存是该系列虚拟机的核心,提供更高的数据的传输速度和效率。
Oracle Cloud Infrastructure (OCI) 提供了经济高效的高性能计算能力,基于OCI上的高性能计算 (HPC) 的性能堪比本 地部署解决方案,并且具备云技术的弹性和基于用量的经济性。
面向生成式 AI 具备出色的可扩展性。每个集群可部署多达数千个 GPU,实现更高的可扩展性。
超低延迟和超高带宽。通过简单的以太网网络架构提供大规模的超高性能,可有效缩短 AI 模型训练用时。
与NVIDIA 强强联手,使用 NVIDIA GPU 加速深度学习、分析、科学仿真及其他高性能计算 (HPC) 工作负载,结合使 用 NVIDIA® RTX 虚拟工作站和 Google Cloud,随时随地加速渲染、仿真和图形密集型工作负载。
GPU算力供应充足,具有全球覆盖的高端GPU现货以及价格竞争力。能提供多款高端GPU,如A100、L4等,可为用 户节省高达50%以上的成本。
Cloud TPU v5e:谷歌最新一代TPU产品,可实现经济高效的 AI 模型训练与推理。
Google Cloud TPU Multislice Training全栈训练产品:支持TPU v4和v5e,使客户能够充分利用谷歌高性价比、多功能 且可扩展的Cloud TPU资源,实现大规模、高效的机器学习模型训练。
本文仅供参考,不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。返回搜狐,查看更多