[MSP-151] 시스템 장애시 Split-brain 발생 및 그룹 온라인 안됨

Subject
시스템 장애시 Split-brain 발생 및 그룹 온라인 안됨

APPLIES TO:
MCCS version: 3.6.3 DK 7.5
OS: Virtual OS : Windows 2012 R2
APPs:
Disk Type:


SYMPTOMS
Active node reboot 후, Standby 서버로 페일오버되는 과정 중에서 Mirror 리소스가 Split-brain 이 발생하며, 이후 그룹 온라인 안됨


CAUSE
1.Split-brain 문제:
1) 10초를 Virtual OS 부팅 시간 delay 를 주어 failover 까지 감지하게 함 (최초 failover도 되지 못함)
2) 10초 delay를 주었던 서버가 그래도 너무 빨리 부팅이 되어 Split-brain(DK에서 source-source 인식)이 발생함
3) delay time 증가요청을 하였지만, 고객사에서 수용하지 않음. (추후 문제 발생시, 대처 방안은 delay time 증가밖에 없음)
4) 다른 문제 야기 가능성:
4-1) 대기 노드에서 노드 장애(node fault)를 감지하는게 늦을 경우 failover 실패 가능성 있음
4-2) 대기노드에서 온라인 시도 중 deletelocalmirroronly 와 clearswitchover 명령 수행할 때, 리부팅된 노드가 부팅이 된다면 DK의 동작으로 자동 Target으로 변경되기 때문에 failover 실패 가능성 있음

2.그룹 온라인 안됨:
1) 위의 Split-brain 때문에 failover가 안 된것은 아니고, Windows 2012 R2 환경에서 멀티 프로세서 일경우, Virual IP가 2개가 동시에 Online을 시도하게 되면 RefreshARP.exe가 Hang 이 걸려, 하위 명령(다른 리소스 시작) 명령을 시도조차 하지 않기 때문에 발생된 현상임.
2) Split-brain 이 발생 후에, RefreshARP.exe가 hang 이 걸리지 않았다면, failover를 완료 이후, 자동으로 resolveSplitBrain 이 동작 했을 것으로 예상(잠금아니고, 리모트가 last source이고, 리모트 그룹이 Online 일 경우 resolveSplitbrain 명령이 모니터하는 동안 동작 하게됨)


SOLUTION
1. Split-brain 해결 방법 : 따라서 노드 장애에 대하여, 부팅된 서버는 대기노드에서 최소한 미러디스크 온라인 이후에 부팅하도록 권장 / 혹은 최대 안전하게 그룹 온라인 완료후 부팅하도록 권장
2. 해당증상발생시 WinPcap 4.1.3을 설치하는 방향으로 이슈해결