안녕하세요

SLURM 노드 unk* idle* down* 상태 / error: nodes not responding 본문

삽질

SLURM 노드 unk* idle* down* 상태 / error: nodes not responding

godxxy1229 2024. 3. 4. 10:54

unk*, idle*, down*

 

# 마스터 로그확인
nano /var/log/slurm/slurmctld.log

# 로그
> Node node1 now responding
> node node1 returned to service
> error: Nodes node1 not responding
> error: Nodes node1 not responding, setting DOWN

 

위처럼 계산 노드에서 응답이 없을 경우 unk*, idle*, down* 상태가 된다.

 

나의 경우, 방화벽 설정 문제로 발생한 문제였다.

 

마스터 노드에서는 slurm에서 사용하는 포트(6817, 6818)가 열려있었으나,

계산 노드에서는 포트 설정이 되어있지 않았다.

 

클러스터 내 모든 노드에서 slurm이 사용하는 포트가 열려있어야 한다.

방화벽 도구인 iptables 혹은 firewalld를 사용해 확인 및 설정할 수 있다.

 

 

 

firewalld를 사용 할 경우

1. firewalld 상태 확인:

sudo firewall-cmd --state

 

2. 활성화된 방화벽 규칙 확인:

sudo firewall-cmd --list-all

 

3. 필요한 포트 열기 (기본값 = 6817, 6818):

sudo firewall-cmd --permanent --add-port=6817/tcp
sudo firewall-cmd --permanent --add-port=6818/tcp

 

4. firewalld 재시작:

sudo firewall-cmd --reload

 

 

 

 

slurmd 재시작 후 sinfo로 확인해보면...

systemctl restart slurmd
sinfo

 

해결!