[MIP-547] 양 서버 Shutdown이후 정상화가 되었으나, MCCS가 정상적으로 합류하지 못함

Subject
양 서버 Shutdown이후 정상화가 되었으나, MCCS가 정상적으로 합류하지 못함

APPLIES TO:
MCCS version: 3.3.2
OS:
APPs: DK 7.3.1
Disk Type: Shared or mirror,none 




SYMPTOMS
양 서버 재부팅 이후 가만히 기다려도 MCCS 콘솔 접속안됨,
서비스(RG)도 올라오지 않음
현대엠시트와 동일한 문제
SPACCDB01서버 - INITING상태
SPACCDB02서버 - REMOTE_DISCOVERING상태,
이후 더이상 진행 없음
12/06/05-18:08:29,345 | main | ngine.MccsStart: 160 | INFO | ====================================================
12/06/05-18:08:29,376 | main | ngine.MccsStart: 166 | INFO | 20005:MCCS 엔진 시작 (3.3.2.r96731) - firstStart
12/06/05-18:08:29,376 | main | ngine.MccsStart: 174 | INFO | - Arch(x64), OS(6.1), Build(7600), SP(0.0)
12/06/05-18:08:29,376 | main | ngine.MccsStart: 175 | INFO | ====================================================
12/06/05-18:08:29,376 | main | ngine.MccsStart: 226 | INFO | 20006:로그 환경 설정 완료
12/06/05-18:08:30,702 | main | ne.hb.HBManager: 93 | INFO | 20059:핫빗 구성 시작
12/06/05-18:08:31,545 | main | ne.db.DbManager: 343 | INFO | 20053:노드 추가 SPACCDB01
12/06/05-18:08:31,560 | main | ne.db.DbManager: 343 | INFO | 20053:노드 추가 SPACCDB02
12/06/05-18:08:32,387 | rorManager | t.mirror.Volume: 159 | INFO | 20029: 미러 롤 변경(UNKNOWN => Target)
12/06/05-18:08:32,434 | rorManager | t.mirror.Volume: 521 | INFO | 20028: 미러 상태 변경(INVALID => MIRRORING)
12/06/05-18:08:32,528 | rorManager | t.mirror.Volume: 159 | INFO | 20029:E: 미러 롤 변경(UNKNOWN => Source)
12/06/05-18:08:32,699 | rorManager | t.mirror.Volume: 521 | INFO | 20028:E: 미러 상태 변경(INVALID => MIRROR_PAUSED)
12/06/05-18:08:35,180 | HBSender | ine.hb.HBSender: 241 | INFO | 20060:핫빗 전송 시작 SPACCDB02 : 100.100.100.2
12/06/05-18:08:35,180 | HBSender | ine.hb.HBSender: 241 | INFO | 20060:핫빗 전송 시작 SPACCDB02 : 200.200.200.2
12/06/05-18:08:35,180 | HBSender | ine.hb.HBSender: 241 | INFO | 20060:핫빗 전송 시작 SPACCDB02 : 172.20.201.21
12/06/05-18:08:35,180 | CDB01:SysM | e.hb.SysMonitor: 907 | INFO | 20068:로컬 노드 상태 변경 [미확인 -> 초기화]
12/06/05-18:08:35,180 | CDB01:SysM | e.hb.SysMonitor: 457 | INFO | 20035:핫빗 링크 초기화 대기...
12/06/05-18:08:35,351 | ueueWorker | e.hb.SysMonitor: 907 | INFO | 20069:SPACCDB02 원격 노드 상태 변경 [미확인 -> 초기화]
12/06/05-18:08:36,880 | ueueWorker | e.hb.SysMonitor: 907 | INFO | 20069:SPACCDB02 원격 노드 상태 변경 [초기화 -> 원격 노드 탐색중]
12/06/05-18:08:37,192 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 200.200.200.2 : UNLINKED->LINKED
12/06/05-18:08:37,192 | inkMonitor | e.hb.SysMonitor: 387 | WARN | 30078:SPACCDB02 노드와의 핫빗 상태 변경 (INITIAL->UNSTABLE)
12/06/05-18:08:37,192 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 100.100.100.2 : UNLINKED->LINKED
12/06/05-18:08:37,192 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 172.20.201.21 : UNLINKED->LINKED
12/06/05-18:08:37,192 | inkMonitor | e.hb.SysMonitor: 387 | WARN | 30078:SPACCDB02 노드와의 핫빗 상태 변경 (UNSTABLE->STABLE)
12/06/05-18:08:37,254 | CDB01:SysM | e.hb.SysMonitor: 485 | INFO | 20064:클러스터내 원격 노드들의 연결 여부 확인중...
12/06/05-18:09:27,440 | GuiSession | ient.GuiSession: 169 | INFO | 20039:GuiSession 종료
12/06/05-18:11:11,476 | HBSession | ient.GuiSession: 169 | INFO | 20133:동일 메시지가 2 번 반복되었습니다.
12/06/05-18:11:11,476 | HBSession | ne.hb.HBSession: 173 | INFO | 20062:HBSession 종료
12/06/05-18:11:17,186 | inkMonitor | ne.hb.HBSession: 173 | INFO | 20133:동일 메시지가 2 번 반복되었습니다.
12/06/05-18:11:17,186 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 172.20.201.21 : LINKED->UNLINKED
12/06/05-18:11:17,186 | inkMonitor | e.hb.SysMonitor: 387 | WARN | 30078:SPACCDB02 노드와의 핫빗 상태 변경 (STABLE->UNSTABLE)
12/06/05-18:11:19,198 | inkMonitor | .hb.LinkMonitor: 276 | INFO | 20063:링크 상태 변경 172.20.201.21 : UNLINKED->LINKED
12/06/05-18:11:19,198 | inkMonitor | e.hb.SysMonitor: 387 | WARN | 30078:SPACCDB02 노드와의 핫빗 상태 변경 (UNSTABLE->STABLE)
12/06/05-18:11:50,008 | GuiSession | ient.GuiSession: 169 | INFO | 20039:GuiSession 종료
12/06/05-18:12:06,997 | onDetector | ient.GuiSession: 169 | INFO | 20133:동일 메시지가 15 번 반복되었습니다.
12/06/05-18:12:06,997 | onDetector | ngine.MccsStart: 136 | INFO | 20131:MCCS를 종료 합니다.



CAUSE
A, B 노드가 있다고 가정하고,
A는 initing 상태에서 상대방 노드가 initing, running, faulted 중에 하나가 되기를 기다리고 있음.
B는 remote_discovering 상태에서 상대방 노드가 running이 되기를 기다리고 있음. 



SOLUTION
이번에 릴리즈된 MCCS 3.4에서 특정 노드가 REMOTE_DISCOVERY상태에 머물러있는 경우 엔진 재시작을 하도록 적용

Fix version : 3.4