[MIP-103] MCCS Agent가 중지된 이유와 Failover가 수행되지 않은 이유

Subject
MCCS Agent가 중지된 이유와 Failover가 수행되지 않은 이유


APPLIES TO:
MCCS version: 3.5.2
OS:
APPs:
Disk Type: shared or mirror, none"


SYMPTOMS
운영자가 Active서버의 세션이 많이 몰려 서버가 느려져 강제 재부팅.
재부팅 후 Standby 서버에서 서비스가 Online 되지 않아 원격 지원요청.
MCCS 콘솔의 실행을 시도하였으나, 노드 합류가 되지 않음.
확인 결과 찾아보니 한 쪽 서버의 MCCS Agent가 중지되어 있어 있었음.
Agent 시작하고 MCCS 콘솔에서 서비스 시작 -> 정상 Online
사용자가 확인 결과 모든 서비스 정상 동작

CAUSE
1. MCCS Agent 가 중지된 이유
- 시스템 로드가 높아서 원격 노드의 핫빗 데이터가 핫빗 타임아웃 시간안에 전달받지 못하여 노드상태를 "엔진종료" 로 판단함.
- 이후에 다시 핫빗 정보를 전달받았을 때 원격노드의 상태가 ""정상"" 이므로 엔진을 재시작 함.
- 이 과정이 RestartLimit(3회) 까지 도달하여 MCCS Agent Service (SCM) 이 중지됨
2. 강제 재부팅 후 Standby에서 서비스 Online되지 않은 이유 (자동 Failover 실패)
- 강제 재부팅 할 시점에 Standby 노드에서 MCCS Agent Service (SCM) 가 중지된 상태이므로 페일오버 할 수 없는 상태임.

SOLUTION
Fixed 3.6.0