Troubleshoot NVIDIA

Troubleshoot NVIDIA-SMI driver couldn't communicate with the NVIDIA Driver

Troubleshoot NVIDIA Driver Communication Error

Langkah-langkah untuk menyelesaikan error "nvidia-smi" communication failure.

Error

Apabila mendapatkan error ketika menjalankan command `nvidia-smi` dan error messagenya sebagai berikut:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.

1. Hapus Driver NVIDIA

Hapus semua driver dan package yang berkaitan dengan NVIDIA untuk memastikan instalasi yang bersih.

sudo apt-get remove --purge '^nvidia-.*'
sudo apt-get remove --purge 'libnvidia-.*'
sudo apt-get remove --purge '^cuda-.*'

2. Install Linux Header Terbaru

Install paket Linux header yang sesuai dengan versi kernel Anda.

sudo apt-get install linux-headers-`uname -r`

3. Instalasi driver pada Ubuntu 22.04

Menggunakan command wget untuk melakukan proses unduh driver

wget https://developer.download.nvidia.com/compute/cuda/12.6.1/local_installers

4. Running instalasi driver NVIDIA

Jalankan file run yang sudah diunduh pada langkah tersebut untuk melakukan installasi driver NVIDIA.

sudo sh cuda_12.6.1_560.35.03_linux.run

5. Reboot server HPC

Setelah melakukan proses installasi. Mohon melakukan reboot pada server HPC.

sudo reboot