算力稀缺时代,如何把 GPU 用“满”

2026年01月23日/ 浏览 6

作者 | 棱镜

过去几年里,GPU 几乎成为所有技术团队的“硬通货”。高端 GPU 不仅价格贵,而且很难购买到。以 A100 为代表的数据中心级 GPU 在市场上长期维持在 10000 美元到 12000 美元区间,叠加地区供应与合规管制,使 GPU 逐渐演变为一种高成本、难扩展的稀缺计算资源。

与 GPU 紧缺的普遍认知相悖的是,许多组织同时面临着 GPU 利用率长期偏低的现实问题。根据 ClearML 发布的 2025–2026 年全球 AI 基础设施调研报告,35% 的企业已将提升 GPU 利用率列为首要基础设施目标,而 44% 的组织缺乏有效的 GPU 利用率管理策略,由此造成的 GPU 容量浪费每年可达数百万美元级别

源于实际生产环境的反馈进一步验证了这一点,在大量 GPU 计算场景,尤其是以推理作为核心的业务,GPU 的实际利用效率普遍偏低,在不少企业环境里,GPU 的平均利用率长期低于 50%;而在 OCR、NLP 推理的典型在线场景中,单卡 GPU 的算力利用水平甚至只有 20%–30%。 也就是说,在 GPU 持续短缺的情况下,诸多已部署的算力未实现充分利用。

为解决这一矛盾,业界其实进行过很多尝试。过去几年,有关 GPU 共享的技术探索不断涌现,其核心思路便是把多个 GPU 应用部署到同一张 GPU 卡上,以提高单张 GPU 卡的资源利用水平。然而,在生产环境里,这类方案始终面临一个问题:共享之后用起来没那么好用。既有的方案无法同时达成算力隔离、显存隔离、故障隔离以及资源灵活切割等关键能力,资源 QoS 难以保障,多个任务之间彼此干扰,甚至单个任务出现异常就会影响整卡的稳定。怎样在保障业务性能和隔离安全的基础上,实现可用、可控的 GPU 共享机制?

本文将以 GPU 使用结构的变化为切入点,分析 GPU 长期“用不好”的原因,并通过腾讯云 TencentOS qGPU 内核态虚拟化以及在离线混部技术解析,探讨 GPU 资源切分与调度能力怎样走向生产可用,并实现降本增效。

1为什么需求暴涨的同时,GPU 却长期“用不好”?

价格高、供应受限导致 GPU 不够用已经成为很多技术团队的共识。但倘若把观察的视角从采购规模转向实际运行情形就会发现,问题的根源并非仅仅是硬件数量,而是 GPU 的使用方式正在变化。

过去,GPU 主要在离线训练或高吞吐计算任务中使用,负载相对平稳,整卡独占也相对合理。但随着 AI 能力渐渐嵌入业务体系,推理及在线服务在 GPU 工作负载里的占比渐渐增大。这类业务对低时延和稳定性具有更高的要求,请求模式呈现出峰值时间短暂、突发性强但整体不连续的特性。这种情况下,单个应用很难持续填满整张 GPU。

然而,为保证服务稳定,许多推理服务仍选择长时间独占 GPU。该方式直接造成算力与显存无法按需分配,GPU 在大量的时间未实现充分利用。即便不同业务在时间上表现出高度互补,也难以共享同一张卡。随着业务规模扩大,资源浪费的现象也被逐步放大。

GPU 使用模式已然出现改变,可依然在采用早期独占式的管理方法,为何 GPU 无法像 CPU 那样实现高效调度?

更深层的原因是,GPU 与 CPU 在计算模型上的核心差异,造成其难以直接借用成熟的云原生调度范式。GPU 并非更快的 CPU 类型,其显存、算力、Kernel、Stream 和执行上下文高度耦合,CUDA 编程模型默认以进程级对设备的独占为前提。这使得调度系统难以感知 GPU 内部真实负载,算力与显存不易被独立、稳定地管控,而单个任务异常,往往会被放大成整卡无法使用的风险。因此,GPU 在很长的时间里都未被看作标准化、可共享的计算资源。

2GPU 共享方案技术路径与边界

当 GPU 利用率问题逐步成为行业共识后,共享几乎是绕不开的方法。近几年,出现了多种围绕 GPU 共享的技术路径,它们在一定程度上提高了并发能力,但在生产环境里面也渐渐暴露出各自存在的局限。

业界主流 GPU 共享方案及其局限

较早被采用的方案,来自用户态或框架层的 API 拦截思路,经由在 CUDA Runtime 或深度学习框架层面介入 GPU 的调用,这类方案能在不调整底层驱动的状况下,做到多任务并发运行。优点为部署灵活,但代价同样十分明显。这类方案属于上层调度,它既要求应用侧进行适配,也无法深入到 GPU 实际的执行阶段。鉴于难以准确感知不同 CUDA Kernel 的真实计算消耗,算力隔离仅停留在近似控制层面,复杂负载下容易失效。这是该类方案难以实现生产级 GPU 共享的核心原因。

采用虚拟化的 vGPU 方案在隔离性上更进一步。依靠虚拟机层面对 GPU 进行划分,vGPU 能提供较强的资源边界,适配多租户的环境。然而方案面临的最大问题是不支持容器,仅仅支持虚拟化场景。在 K8S 的云原生场景不适用,而且也无法灵活配置显存和算力。

NVIDIA MPS 主要是针对并发执行效率问题,它允许多个进程共享 GPU 执行上下文,在吞吐型场景中成效明显,然而不提供资源隔离的相关能力。单个任务对显存或算力的异常占用,还是有可能影响别的任务,生产环境里面临故障传播的风险。

随着硬件能力的演进,MIG 被看作相对更贴近硬件层的共享方案,MIG 可从物理层面实现对 GPU 的切分,在隔离性方面具有优势,然而其切分规格是既定的,还依赖特定 GPU 型号,同时也不支持显存及算力的灵活配置。

整体来看,这些方案都在不同指标上进行了取舍。在真实生产环境中,一旦负载情况复杂或任务出现异常,这些方案的局限便会迅速暴露出来。也正因为如此,当用户态和外围机制逐渐难以满足要求,行业开始将探索方向转向更底层。

内核态 GPU 虚拟化技术解析

GPU 调度的复杂性决定了真正的资源控制点,不在框架层,而是在驱动和内核层。与用户态方案相比,内核态技术不依靠特定框架或 CUDA Runtime,对上层业务基本没有影响。应用无需对代码做出修改就能得到更细粒度的资源控制能力。同时,算力与显存的限制在驱动层可以强制执行,从工程方面明显降低了任务的彼此干扰,也为故障隔离提供了基础条件。

腾讯云 TencentOS qGPU 正是按照这一逻辑进行实践的,其技术路径选用以内核态 GPU 虚拟化作为切入点,在驱动层实现算力跟显存的精细切分,再引入故障隔离相关机制,防止单一任务异常波及整卡的稳定。在此基础上,qGPU 把这些被分割的 GPU 资源纳入云原生调度体系,让 GPU 成为可让调度系统理解的细粒度资源单元。 在 ResNet50 推理测试中,qGPU 在多 Pod 场景下实现了严格的算力隔离,实际性能与预设配比有着高度一致性。不同切分规格下,各 Pod 性能累加与原生 GPU 基本一致,整体性能损耗几乎可以忽略。

3从资源切分到在离线混部,决定 GPU 利用率上限的关键

当 GPU 资源能够被稳定切分,一个新挑战随之出现:这些 GPU 资源是否真的能持续、高效地被利用起来?在生产环境里,这更多依赖调度策略的安排,而非切分粒度自身。很多情况下,GPU 无法共享并非是技术上不可行,而是缺乏合适的调度策略。

在离线混部成为 GPU 利用率提升的关键

在实际业务中,在线推理与离线任务的需求差别极为明显,在线推理围绕用户请求开展,对延迟、稳定性有严格的要求。离线任务则更看重整体吞吐与执行成本,对完成时间的要求相对没那么严格。

从时间角度看,这两类负载一般情况下并不同步。在线服务有明显的流量波动,而离线任务可在空闲时段执行。如果能实现混部,离线任务就可以填补在线业务所剩的空闲算力,进而大幅提升 GPU 的整体使用效率。

GPU 混部的工程难点

GPU 混部的难点,首先表现在调度控制上。在线业务负载突然上升时,系统得及时把算力资源回收,待到负载下降后恢复离线任务,这对抢占时机及恢复机制提出了较高要求。

其次是业务优先级方面的问题。处于混部的场景中,不同任务就性能抖动的容忍度差异明显。若缺少清晰、可执行的优先级机制,混部极易影响到在线服务的稳定性。

更现实的挑战来自 GPU 本身。GPU 做上下文切换的成本偏高,显存状态复杂,任务执行期间往往伴随着大量中间数据。要是资源边界的界定模糊,混部非但不能让利用率有所提升,反倒有概率引入新的未知变数。这就是许多团队对于 GPU 混部保持谨慎的原因。

qGPU 在这一阶段解决的问题

处于这一阶段,qGPU 关注的重点不再只是资源切分,而是怎样在稳定隔离的状况下支持混部运行。借助在底层构建明确的资源边界,在线任务跟离线任务可在同一张 GPU 上并行着运行,同时避免相互间的干扰。更关键的一点是,qGPU 让 GPU 成为调度系统可理解和管理的资源。GPU 不再被固定绑定到某个应用,而是可以依照业务优先级及负载变化做动态分配。这让 GPU 利用率提升不再依靠人工调试,转而成为系统层面的长期能力。

当 GPU 能够被切分、被调度、被混合使用,资源利用率才具备持续提升的可能。这同样为 GPU 共享在更大规模生产环境里落地奠定了基础。

4跨行业实践:当 GPU 共享走向生产可用

当 GPU 共享真正拥有稳定隔离以及统一调度能力后,其价值开始在各行各业的业务中逐步被验证。

1. 金融行业:在强稳定性约束下释放闲置算力

金融行业里,GPU 主要用在 OCR、NLP 推理以及部分实时分析的场景中,这类业务对稳定性跟隔离性的要求极高。长久以来普遍采取整卡独占的方式去运行,造成大量算力处在闲置状态。

结合腾讯云 TencentOS qGPU 的实践经验,一旦 GPU 能在底层实现算力与显存的硬隔离,多个推理任务便可在同一块 GPU 上并行运行,而不会彼此干扰。在业务负载稳定的前提下,GPU 平均利用水平显著上升。此外,由于隔离边界清晰,单一任务的异常状况不再干扰整卡的运行,这让金融生产环境中的 GPU 共享具备了可接受的风险水平。

2. 互联网企业 OCR 场景:从独占低效到规模化共享

在 OCR 场景里,GPU 出现低利用率问题格外典型。OCR 推理任务一般计算密度不大,单模型在 GPU 上难以形成持续不断的高负载。某头部互联网企业在引入 GPU 共享前,在线 OCR 业务大多采用 GPU 独占式部署,单张 GPU 的利用率长期低于 40%,但业务侧不敢合并部署,原因就在于不同任务之间缺乏有效的隔离手段,要是出现异常,往往会让整卡的稳定性受到影响。

在引入基于内核态虚拟化的 qGPU 方案后,该企业把原本独占的 GPU 资源整合进统一的容器调度体系。GPU 被切分成更细粒度的逻辑资源单元,还在算力及显存方面构建明确的隔离边界。多个 OCR 推理服务得以在同一张 GPU 上并行运行,无需对原有应用代码进行修改。从运行的实际效果看,业务部署密度提高了 1 - 3 倍,GPU 能同步承载更多推理实例,以往无法利用的碎片算力被填满。在 GPU 总规模维持原状的前提下,整体 GPU 利用率提升了约 100%,年化 TCO 成本节约超 50%。

3. 在线教育场景:在成本压力下实现在离线混部

在线教育平台一般会同时运行几十种模型、20 余个 AI 推理服务,每个模型负载较低,不过数量众多,GPU 显存及算力长期无法充分消耗。就传统方案而言,MPS 或用户态拦截机制不易实现可靠的故障隔离,难以支撑大规模生产使用。

通过 qGPU 的方案,该平台把 GPU 资源池化,且依据业务优先级调度:在线推理服务拿到稳定算力的保障,离线任务在空闲时段自动填充剩余资源,实现在离线混部运行。从实际落地效果看,GPU 资源部署密度提升了 3 倍以上,月 TCO 成本下降约 40%,整体的推理效率提升约 30%,业务侧基本无感,不必替换 CUDA 库,也无需修改模型代码。

5写在最后

在可预见的未来,GPU 的稀缺不会很快结束。价格高、供应受限,依旧是多数团队躲不过的现实情况,持续单纯借助堆卡,只会让成本压力不断扩大,没办法从根本上解决问题。与此同时,GPU 的角色正在变化,它不再仅仅是一个性能更强的计算设备,而是渐渐转化为需要长期管理的基础设施资源。随着推理及在线服务成为主流负载,独占式使用方式难以与新的业务形态相适配。

真正的难点不在于有没有 GPU 共享方案,而在于这些方案是否具备工程可用性。只有在 GPU 可被稳定切分、被调度系统理解,且在不同业务之间能够安全复用,算力才可实现持续利用。只有当 GPU 像 CPU 那样实现被治理,而不是被抢占,算力紧张的问题,才有可能在结构上获得缓解。返回搜狐,查看更多

picture loss