nvidia-smi unable to determine the device handle for GPU 0000

    [Ubuntu] Unable to determine the device handle for GPU0000:06:00.0: Unknown Error 해결방법

    상황 서버 컴으로 학습시키다가 (3~4epoch을 지나고 있었음, 코드 레벨에서 Error 없을 것으로 예상) RuntimeError: CUDA error: the launch timed out and was terminated 라는 에러 메시지와 함께 갑자기 학습을 멈췄다. 그래서 터미널 창에 nvidia-smi 를 통해 학습중인지 아닌지를 판단하고자 하였다. (학습 중이라면 GPU를 사용하고 있을 테니까) 그러자 nvidia-smi 의 결과로 Unable to determine the device handle for GPU0000:06:00.0: Unknown Error 라는 메시지를 뱉더라..! 이유 위와 같은 에러가 나타나는 이유는 다양하겠지만, 아래와 같이 정리할 수 있었다. GPU의 물리적 고..