【Pytorch使用】CUDA 显存管理与 OOM 排查实战:以 PyTorch 联邦学习训练为例
一、问题背景 在深度学习训练过程中,特别是使用 GPU 进行联邦学习训练时,经常会遇到 torch.OutOfMemoryError: CUDA out of memory 错误。
1.1 现象发生的可能原因
模型较大(如 VGG16、ResNet 等)
批次大小(batch_size)过大
多个客户端共享模
