안녕하세요
SLURM 노드 unk* idle* down* 상태 / error: nodes not responding 본문
# 마스터 로그확인
nano /var/log/slurm/slurmctld.log
# 로그
> Node node1 now responding
> node node1 returned to service
> error: Nodes node1 not responding
> error: Nodes node1 not responding, setting DOWN
위처럼 계산 노드에서 응답이 없을 경우 unk*, idle*, down* 상태가 된다.
나의 경우, 방화벽 설정 문제로 발생한 문제였다.
마스터 노드에서는 slurm에서 사용하는 포트(6817, 6818)가 열려있었으나,
계산 노드에서는 포트 설정이 되어있지 않았다.
클러스터 내 모든 노드에서 slurm이 사용하는 포트가 열려있어야 한다.
방화벽 도구인 iptables 혹은 firewalld를 사용해 확인 및 설정할 수 있다.
firewalld를 사용 할 경우
1. firewalld 상태 확인:
sudo firewall-cmd --state
2. 활성화된 방화벽 규칙 확인:
sudo firewall-cmd --list-all
3. 필요한 포트 열기 (기본값 = 6817, 6818):
sudo firewall-cmd --permanent --add-port=6817/tcp
sudo firewall-cmd --permanent --add-port=6818/tcp
4. firewalld 재시작:
sudo firewall-cmd --reload
slurmd 재시작 후 sinfo로 확인해보면...
systemctl restart slurmd
sinfo
'삽질' 카테고리의 다른 글
리눅스 서버에서 인터넷 안될 때 의심해볼 것 (4) | 2024.10.17 |
---|---|
Whisper, LLM 기반 영상(유튜브) 요약 생성기 개발해보기 (2) | 2024.09.30 |
MeCab 경로 인식 문제 해결 (0) | 2023.12.09 |
Pandas로 CSV 파일에서 숫자 데이터를 문자열이 아닌 숫자로 불러오기 (0) | 2023.10.05 |
R 4.0이상 KoNLP 수동설치 (0) | 2023.05.18 |