Troubleshoot NVIDIA-SMI driver couldn't communicate with the NVIDIA Driver
Langkah-langkah untuk menyelesaikan error "nvidia-smi" communication failure.
Apabila mendapatkan error ketika menjalankan command `nvidia-smi` dan error messagenya sebagai berikut:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.
Hapus semua driver dan package yang berkaitan dengan NVIDIA untuk memastikan instalasi yang bersih.
sudo apt-get remove --purge '^nvidia-.*' sudo apt-get remove --purge 'libnvidia-.*' sudo apt-get remove --purge '^cuda-.*'
Install paket Linux header yang sesuai dengan versi kernel Anda.
sudo apt-get install linux-headers-`uname -r`
Menggunakan command wget untuk melakukan proses unduh driver
wget https://developer.download.nvidia.com/compute/cuda/12.6.1/local_installers
Jalankan file run yang sudah diunduh pada langkah tersebut untuk melakukan installasi driver NVIDIA.
sudo sh cuda_12.6.1_560.35.03_linux.run
Setelah melakukan proses installasi. Mohon melakukan reboot pada server HPC.
sudo reboot