发布时间:2025-12-15 23:31:31 浏览次数:1
查看GPU服务器的显卡信息通常使用NVIDIA提供的`nvidiasmi`命令(NVIDIA System Management Interface)。这个命令行工具能够显示关于NVIDIA GPU的多种信息,包括但不限于显卡型号、驱动版本、显存使用情况、GPU利用率、温度、功耗等。
以下是使用`nvidiasmi`查看显卡信息的步骤:
1. 登录服务器:首先,需要通过SSH或其他方式登录到GPU服务器。
2. 运行nvidiasmi命令:在服务器的命令行终端中输入以下命令:
nvidiasmi
执行此命令后,你将看到类似以下格式的输出信息:
+-----------------------------------------------------------------------------+|NVIDIA-SMI460.32.03DriverVersion:460.32.03CUDAVersion:11.2||-------------------------------+----------------------+----------------------+|GPUNamePersistence-M|Bus-IdDisp.A|VolatileUncorr.ECC||FanTempPerfPwr:Usage/Cap|Memory-Usage|GPU-UtilComputeM.||||MIGM.||===============================+======================+======================||0TeslaV100-SXM2...Off|00000000:00:1E.0Off|0||N/A35CP057W/300W|10938MiB/16160MiB|88%Default||||N/A|+-------------------------------+----------------------+----------------------+...+-----------------------------------------------------------------------------+|Processes:||GPUGICIPIDTypeProcessnameGPUMemory||IDIDUsage||=============================================================================||0001234Cpython10938MiB||0005678Ctensorflow2048MiB|+-----------------------------------------------------------------------------+
3. 查看具体信息:输出中包含了以下信息:
GPU Name:GPU型号名称。
PersistenceM:GPU持久模式状态。
BusId:GPU总线ID。
Disp.A:显示设备状态(Off表示没有连接显示器)。
Volatile Uncorr. ECC:易失性未更正的ECC错误计数。
Fan, Temp, Perf, Pwr:风扇转速、温度、性能状态、功耗。
MemoryUsage:显存使用情况。
GPUUtil:GPU利用率。
Compute M.:计算模式。
MIG M.:多实例GPU状态(如果支持)。
Processes:运行在GPU上的进程及其资源使用情况。
4. 定期监控:如果需要定期监控GPU状态,可以使用`watch`命令:
watchn1nvidiasmi
这将每秒更新一次GPU信息。
确保服务器上已安装了正确的NVIDIA驱动程序,`nvidiasmi`命令才能正常工作。如果没有安装驱动或驱动不兼容,该命令可能无法执行或返回错误信息。