IT 삽질기

Resource Manager Active Standby 전환 이슈 본문

BigData/Hadoop

Resource Manager Active Standby 전환 이슈

화이팅빌런 2021. 3. 9. 01:27

하둡 클러스터 운영중 Active Resource Manager가 내려간 후 Standby RM이 Active상태로 전환되지 않는 이슈 발생

이후 Active로 동작하고 있던 RM도 올라왔지만 역시 StandBy 상태로 Active상태로 전환되지 않음

 

리서치 결과

community.cloudera.com/t5/Community-Articles/Resource-Managers-are-starting-up-both-in-standby/ta-p/246250

 

Zookeeper 관련 이슈로 판단

yarn-leader-election 이슈로 RM이 정상적으로 전환되지 않는 것

 

zkcli에 접근하여 직접 데이터를 삭제

#hdp zookeeper 경로
ex) /usr/hdp/current/zookeeper/bin/zkCli.sh

# zkCli에서
rmr /rmstore
rmr /yarn-leader-election

위의 명령어를 실행

 

zkCli 접근 화면

 

해당 명령어를 사용하면 NodeManager가 모두 내려가는 현상이 발생, 실행중이던 모든 잡들이 중지되며 rmstore, yarn-leader-election을 지우는 과정이 오래걸리므로 기다리는 과정이 필요하다

 

이후에도 RM이 정상적으로 전환되지 않는 경우에는 Zookeeper을 모두 재시작

필요에 따라 RM도 재시작하여 Active가 정상적으로 올라오는 것을 확인

Comments