목록2024/10/17 (2)
안녕하세요
서버 GPU 어떻게 관리하지?연구실같은 서버 환경에서는 여러 사용자가 동일한 GPU 자원을 공유하게 된다. 이때 자원을 효율적으로 사용하지 못하면 다른 사용자가 실험이나 작업을 수행할 때 불편을 겪거나, GPU 자원이 불필요하게 낭비될 수 있다. 특히 실험이 끝났는데 일부 프로세스가 종료되지 않은 경우, GPU 메모리를 계속 점유하면서 사용자가 GPU를 사용할 수 없는 경우가 생긴다. 이를 수동으로 관리하려면 관리자가 매번 서버에 접속해 nvidia-smi 명령어를 사용하여 현재 상태를 확인하고, 불필요한 프로세스를 종료하는 번거로운 작업을 반복해야 했다... 어떻게 해결하지? 근데 스케줄링 해주는 프로그램 있지 않나요?사실 GPU 자원을 스케줄링하는 툴이 이미 있다.SLURM, Kubernetes(..
얼마 전, 잘 되던 클러스터 서버에서 갑자기 외부 인터넷 연결이 안 되는 상황이 발생했다. 인접한 컴퓨터와의 내부망 통신은 정상적으로 이루어졌지만, DNS 서버와 웹 서비스와의 연결이 끊긴 상태였다. 왜 이런 일이 생겼을까? 그리고 어떻게 해결했을까? 문제 원인과 해결 방법을 정리해보려고 써봤다. 원인먼저, 네트워크 라우팅 테이블을 확인했다. 라우팅 테이블을 보면, 내부망과 외부망 모두 기본 게이트웨이로 설정되어 있었고, 내부망(192.168.1.1)의 우선순위(metric 값)가 더 낮게 설정된 상태였다. 이는 내부망이 기본 라우트로 인식되면서 외부망과의 연결을 방해하게 되는 상황을 만들었다. 내부망과 외부망이 동시에 사용되던 환경에서, 외부 DNS 서버로 나가야 할 요청이 내부망으로 잘못 나가는 구조..