[MSP-140] 불규칙 한 미러 디스크의 Monitor interval

Subject
불규칙 한 미러 디스크의 Monitor interval

APPLIES TO:
MCCS 3.6.3


SYMPTOMS

MCCS POC 관련하여 Xen-Motion중 아래와 같은 이슈가 확인 되어 CASE OPEN 합니다.
Xen-Motion : 운영중인 VM을 현재 Phisical Machine에서
동일 Pool내의 다른 Phisical Machine으로 Downtime 없이 Migration 해주는 기능입니다.
고객사 TEST 환경에서 실제 Xen-Motion을 수행해보면 Migration 시작부터 완료까지 8~20초 가량 소요 되며
그 동안 Service 응답 및 통신이 되지 않습니다. (즉, Migration 수행 동안에는 서비스가 되지 않는 Freeze 상태의 VM이 됩니다.)
사전에 미러 디스크의 속성 값을 “Tolerance Limit :3 / Monitor interval : 10”으로 해두고, Xen-Motion을 수행 하였는데 위의 log화면과 같이 interval이 규칙적이지 않게 Monitor하여 장애로 판단 되는 이슈가 확인 되어 확인을 요청 드립니다.


CAUSE
불규칙한 미러디스크의 Monitor interval 이 발생된 원인
1. ServerA노드를 Xen-Motion으로 이동 중, ServerB에서 ServerA의 시스템 장애 감지로 인한 failover 진행
2. ServerB에서 미러디스크 온라인 시도시, DK연결 성공(ping 및 getserviceinfo 명령 성공)에 의해 미러디스크 switchover 명령 수행(Xen-Motion 이 끝나 freezing 이 풀린것으로 추정)
3. 미러디스크 switchover 명령에 따라 ServerA노드의 미러디스크가 source에서 Target으로 변경되어, MCCS에서 Disk 장애 감지
4. 이로 인해 tolerance 가 동작을 했으나, role 변경에 따른 event log hooking이 발생하여, 미러디스크 상태 체크(모니터)를 MonitorInterval과 상관없이 다시 체크하게 됨에 따라, tolerance값이 증가되었음.


SOLUTION
실제 Xen-Motion 을 이용시, 그룹 잠금 및 그룹 잠금 해제를 이용하는 것으로 가이드