본문 바로가기

PYTHON/PYTORCH

[PYTORCH] DataLoader worker is killed by signal: killed 오류

그 아무도 돌려놓은 서버에 kill하라는 명령을 내리지 않았지만 밤에 돌려놓고 다음날 오전에 확인하면 이렇게 죽어있는 경우가 있다.

오류 내용은 아래 그림과 같다.

필자는 서버컴퓨터에 docker container를 띄워서 사용하고 있다.

구글링을 요리조리 해봤는데 --ipc=host를 추가하면 해결이 된다라는 말도 있었는데 필자는 이미 항상 써왔던 것이어서 패스.

그리고 shm size가 작아서 그럴수도 있다라는 말도 있었는데 이미 133G로 정말 빵빵하게 늘려져 있어서 패스.

그냥 데이터의 크기가 커서 안돌아간다는 건... 아니지 않을까 싶다...

 

어쨋든 상황상으로 생각해볼때 작은 데이터셋으로 테스트를 할때에는 문제가 없었는데 큰 데이터셋으로 학습을 돌릴때 저러는 것으로 보아 데이터의 크기가 너무 커서 우분투에서 그냥 프로세스를 죽여버린거같은데.... 다른 서버컴에서는 이런일이 없었는데 이 서버컴에서만 유독 그런다.

 

혹시 해결이 가능하신 분 있으면 알려주셨으면 좋겠다.