반응형
상황
서버 컴으로 학습시키다가 (3~4epoch을 지나고 있었음, 코드 레벨에서 Error 없을 것으로 예상)
RuntimeError: CUDA error: the launch timed out and was terminated
라는 에러 메시지와 함께 갑자기 학습을 멈췄다.
그래서 터미널 창에
nvidia-smi
를 통해 학습중인지 아닌지를 판단하고자 하였다.
(학습 중이라면 GPU를 사용하고 있을 테니까)
그러자 nvidia-smi 의 결과로
Unable to determine the device handle for GPU0000:06:00.0: Unknown Error
라는 메시지를 뱉더라..!
이유
위와 같은 에러가 나타나는 이유는 다양하겠지만, 아래와 같이 정리할 수 있었다.
- GPU의 물리적 고장
- GPU 현재 온도 너무 높음
- GPU 연결 접촉 상태 올바르지 못함
해결방법
여러 구글링의 결과를 정리하였다.
아래와 같은 순서로 진행해보길 바란다.
- 재부팅 -------------- 1단계에서 필자 해결 완료
- GPU 보조전원선(PCI-E) (재)연결
- GPU 드라이버 재설치
- GPU를 기존 슬롯 재장착
- GPU를 다른 슬롯에 장착
- BIOS 업그레이드
- 메인보드 or GPU 교체
* 참고
https://github.com/NVIDIA/nvidia-container-toolkit/issues/69
반응형