/
[MIP-547] 양 서버 Shutdown이후 정상화가 되었으나, MCCS가 정상적으로 합류하지 못함

[MIP-547] 양 서버 Shutdown이후 정상화가 되었으나, MCCS가 정상적으로 합류하지 못함

Subject
양 서버 Shutdown이후 정상화가 되었으나, MCCS가 정상적으로 합류하지 못함

APPLIES TO:
MCCS version: 3.3.2
OS:
APPs: DK 7.3.1
Disk Type: Shared or mirror,none 




SYMPTOMS
양 서버 재부팅 이후 가만히 기다려도 MCCS 콘솔 접속안됨,
서비스(RG)도 올라오지 않음
현대엠시트와 동일한 문제
SPACCDB01서버 - INITING상태
SPACCDB02서버 - REMOTE_DISCOVERING상태,
이후 더이상 진행 없음
12/06/05-18:08:29,345 | main | ngine.MccsStart: 160 | INFO | ====================================================
12/06/05-18:08:29,376 | main | ngine.MccsStart: 166 | INFO | 20005:MCCS 엔진 시작 (3.3.2.r96731) - firstStart
12/06/05-18:08:29,376 | main | ngine.MccsStart: 174 | INFO | - Arch(x64), OS(6.1), Build(7600), SP(0.0)
12/06/05-18:08:29,376 | main | ngine.MccsStart: 175 | INFO | ====================================================
12/06/05-18:08:29,376 | main | ngine.MccsStart: 226 | INFO | 20006:로그 환경 설정 완료
12/06/05-18:08:30,702 | main | ne.hb.HBManager: 93 | INFO | 20059:핫빗 구성 시작
12/06/05-18:08:31,545 | main | ne.db.DbManager: 343 | INFO | 20053:노드 추가 SPACCDB01
12/06/05-18:08:31,560 | main | ne.db.DbManager: 343 | INFO | 20053:노드 추가 SPACCDB02
12/06/05-18:08:32,387 | rorManager | t.mirror.Volume: 159 | INFO | 20029: 미러 롤 변경(UNKNOWN => Target)
12/06/05-18:08:32,434 | rorManager | t.mirror.Volume: 521 | INFO | 20028: 미러 상태 변경(INVALID => MIRRORING)
12/06/05-18:08:32,528 | rorManager | t.mirror.Volume: 159 | INFO | 20029:E: 미러 롤 변경(UNKNOWN => Source)
12/06/05-18:08:32,699 | rorManager | t.mirror.Volume: 521 | INFO | 20028:E: 미러 상태 변경(INVALID => MIRROR_PAUSED)
12/06/05-18:08:35,180 | HBSender | ine.hb.HBSender: 241 | INFO | 20060:핫빗 전송 시작 SPACCDB02 : 100.100.100.2
12/06/05-18:08:35,180 | HBSender | ine.hb.HBSender: 241 | INFO | 20060:핫빗 전송 시작 SPACCDB02 : 200.200.200.2
12/06/05-18:08:35,180 | HBSender | ine.hb.HBSender: 241 | INFO | 20060:핫빗 전송 시작 SPACCDB02 : 172.20.201.21
12/06/05-18:08:35,180 | CDB01:SysM | e.hb.SysMonitor: 907 | INFO | 20068:로컬 노드 상태 변경 [미확인 -> 초기화]
12/06/05-18:08:35,180 | CDB01:SysM | e.hb.SysMonitor: 457 | INFO | 20035:핫빗 링크 초기화 대기...
12/06/05-18:08:35,351 | ueueWorker | e.hb.SysMonitor: 907 | INFO | 20069:SPACCDB02 원격 노드 상태 변경 [미확인 -> 초기화]
12/06/05-18:08:36,880 | ueueWorker | e.hb.SysMonitor: 907 | INFO | 20069:SPACCDB02 원격 노드 상태 변경 [초기화 -> 원격 노드 탐색중]
12/06/05-18:08:37,192 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 200.200.200.2 : UNLINKED->LINKED
12/06/05-18:08:37,192 | inkMonitor | e.hb.SysMonitor: 387 | WARN | 30078:SPACCDB02 노드와의 핫빗 상태 변경 (INITIAL->UNSTABLE)
12/06/05-18:08:37,192 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 100.100.100.2 : UNLINKED->LINKED
12/06/05-18:08:37,192 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 172.20.201.21 : UNLINKED->LINKED
12/06/05-18:08:37,192 | inkMonitor | e.hb.SysMonitor: 387 | WARN | 30078:SPACCDB02 노드와의 핫빗 상태 변경 (UNSTABLE->STABLE)
12/06/05-18:08:37,254 | CDB01:SysM | e.hb.SysMonitor: 485 | INFO | 20064:클러스터내 원격 노드들의 연결 여부 확인중...
12/06/05-18:09:27,440 | GuiSession | ient.GuiSession: 169 | INFO | 20039:GuiSession 종료
12/06/05-18:11:11,476 | HBSession | ient.GuiSession: 169 | INFO | 20133:동일 메시지가 2 번 반복되었습니다.
12/06/05-18:11:11,476 | HBSession | ne.hb.HBSession: 173 | INFO | 20062:HBSession 종료
12/06/05-18:11:17,186 | inkMonitor | ne.hb.HBSession: 173 | INFO | 20133:동일 메시지가 2 번 반복되었습니다.
12/06/05-18:11:17,186 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 172.20.201.21 : LINKED->UNLINKED
12/06/05-18:11:17,186 | inkMonitor | e.hb.SysMonitor: 387 | WARN | 30078:SPACCDB02 노드와의 핫빗 상태 변경 (STABLE->UNSTABLE)
12/06/05-18:11:19,198 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 172.20.201.21 : UNLINKED->LINKED
12/06/05-18:11:19,198 | inkMonitor | e.hb.SysMonitor: 387 | WARN | 30078:SPACCDB02 노드와의 핫빗 상태 변경 (UNSTABLE->STABLE)
12/06/05-18:11:50,008 | GuiSession | ient.GuiSession: 169 | INFO | 20039:GuiSession 종료
12/06/05-18:12:06,997 | onDetector | ient.GuiSession: 169 | INFO | 20133:동일 메시지가 15 번 반복되었습니다.
12/06/05-18:12:06,997 | onDetector | ngine.MccsStart: 136 | INFO | 20131:MCCS를 종료 합니다.



CAUSE
A, B 노드가 있다고 가정하고,
A는 initing 상태에서 상대방 노드가 initing, running, faulted 중에 하나가 되기를 기다리고 있음.
B는 remote_discovering 상태에서 상대방 노드가 running이 되기를 기다리고 있음. 



SOLUTION
이번에 릴리즈된 MCCS 3.4에서 특정 노드가 REMOTE_DISCOVERY상태에 머물러있는 경우 엔진 재시작을 하도록 적용

Fix version : 3.4 

 

Related content

[MIP-13] Active Node Shutdown시 failover 실패 - 미러상태의 중문 스트링을 인식하지 못하는 것으로 추정
[MIP-13] Active Node Shutdown시 failover 실패 - 미러상태의 중문 스트링을 인식하지 못하는 것으로 추정
More like this
[MIP-396] 노드 상태 중복 전달 문제 해결
[MIP-396] 노드 상태 중복 전달 문제 해결
More like this
[MIP-103] MCCS Agent가 중지된 이유와 Failover가 수행되지 않은 이유
[MIP-103] MCCS Agent가 중지된 이유와 Failover가 수행되지 않은 이유
More like this
[MSP-159] 양 노드의 웹콘솔에서 그룹 상태정보가 다르게 보인다
[MSP-159] 양 노드의 웹콘솔에서 그룹 상태정보가 다르게 보인다
More like this
[MIP-278] Service 리소스 등록시 drbd , ems , dk , drbd 서비스는 제거 되어있지만 수정시 포함됨.
[MIP-278] Service 리소스 등록시 drbd , ems , dk , drbd 서비스는 제거 되어있지만 수정시 포함됨.
More like this
[MIP-472] 미러리소스 생성 시 원격 볼륨 인식하지 못함
[MIP-472] 미러리소스 생성 시 원격 볼륨 인식하지 못함
More like this