Section | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
클러스터 모드의 노드 상태(NodeState)
MCCS는 핫빗 통신을 통해 노드들을 하나의 클러스터로 구성합니다.
클러스터 동작은 노드 상태와 역할에 따라 결정되며, 노드 상태는 시스템, MCCS의 동작, 핫빗 통신 상태에 따라 결정됩니다.
다음은 클러스터 모드에서 가능한 노드 상태입니다.
노드 상태 | 설명 |
---|---|
EXITED(엔진 종료) | MCCS 엔진이 종료된 상태입니다. |
INITING(초기화) | 엔진이 시작되고 구성 정보 분석과 핫빗 통신이 이루어지기 전의 기본 노드 상태입니다. MCCS 엔진이 시작된 후 두 노드가 핫빗으로 통신을 하며 상호 상태를 수집하는 초기 상태입니다. 정상적인 경우는 이 상태에서 LOCAL_BUILD 또는 REMOTE_BUILD 상태로 변경되지만, 구성 또는 물리적 환경에 문제가 있는 경우는 INITING 상태에 머물거나 자동 종료되어 EXITED 상태가 됩니다. |
LOCAL_BUILD(로컬구성) | 클러스터의 모든 노드들이 INITING 상태일 때, 핫빗 설정에서 우선 순위가 가장 높은 노드가 LOCAL_BUILD 상태로 변경되며, 이 상태의 노드는 로컬 구성 파일(%MCCS_HOME%\config\main.json)에서 구성 정보를 분석합니다. 클러스터의 노드 중에서 오직 한 노드만이 이 상태를 거쳐 RUNNING 상태가 되며, 다른 노드들은 이 노드로부터 데이터를 동기화하는 REMOTE_BUILD 상태를 거치게 됩니다. |
REMOTE_BUILD(원격구성) | INITING 상태의 노드가 핫빗 통신을 통해 RUNNING 상태인 노드를 발견하면, 자신을 REMOTE_BUILD 상태로 설정한 후, RUNNING 상태인 노드로부터 구성 정보를 동기화합니다. |
RUNNING(정상) | LOCAL_BUILD 또는 REMOTE_BUILD를 통해 구성 데이터베이스 설정을 완료한 상태이며, 이 상태에서 정의된 모든 리소스에 대한 에이전트와 그룹 관리자를 시작합니다. |
FAULTED(시스템장애) | RUNNING 상태에 있던 노드와의 모든 핫빗이 끊어졌을 때, RUNNING 상태의 노드를 FAULTED로 설정합니다. |
노드 상태의 변화 과정
다음은 MCCS의 동작 단계에 따른 노드 상태의 변화 과정을 보여줍니다.
[그림] MCCS 동작 단계에 따른 노드 상태
핫빗 이중화
핫빗은 노드 상호간의 상태를 동기화하고 장애 상태를 결정하는 중요한 역할을 합니다.
따라서 시스템이 운영중인 상황에서는 언제나 통신이 가능한 상태임을 보장하기 위해 반드시 이중화되어야 합니다.
또한 네트워크 고립 여부를 판단하기 위해서 핫빗 네트워크 중에서 하나는 서비스 네트워크 또는 클러스터 노드 외의 노드와 통신이 가능한 네트워크로 반드시 설정해야 합니다.
노드 장애(Node Fault)
모든 핫빗 통신이 일정 시간 단절될 경우는 해당 노드를 장애 상태로 판정합니다.
핫빗 통신 단절에 대한 최종 판정은 ICMP(Internet Control Message Protocol) 테스트에 의해 이루어집니다.
각각의 핫빗 네트워크가 단절된 시간이 지정 시간을 초과할 경우는 원격 노드의 장애, 분열, 고립으로 판정합니다.
핫빗 단절
모든 핫빗 통신이 단절되면 상호간에 상태 정보를 교환할 수 있는 방법을 잃게 됩니다.
이 경우에 MCCS가 상대 노드를 장애로 판단할 것인지 아니면 단지 상호간의 네트워크 통신만 단절된 상태로 판단할 것인지에 따라 서비스 복구 여부가 결정됩니다.
분열(Split Brain)
핫빗 네트워크의 단절이 클러스터 속성에 정의되어 있는 일정 시간 간격 이상의 시간차로 발생할 경우는 노드 장애 보다는 핫빗 네트워크 전체에 대한 불안정을 의심할 수 있습니다.
따라서 핫빗에 의한 노드 상태를 신뢰할 수 없는 상황으로 판단하여, 시스템 장애로 감지하지 않고 현재 상태를 유지합니다.
핫빗 통신이 다시 정상적으로 이루어지면 클러스터에 속한 노드의 MCCS 서비스를 재시작하고 RUNNING 상태로 복귀합니다.
그렇지 않으면 INITING 상태에서 핫빗 통신이 정상화될 때까지 대기하게 됩니다.
고립(Isolation)
일정 시간 내에 모든 핫빗이 단절된 경우라도 상대 노드를 장애로 판단하기 전에 먼저 로컬 노드 자신이 모든 네트워크로부터 단절된 상황인지를 확인할 필요가 있습니다.
만일 게이트웨이 혹는 DNS 서버와 같이 공인된 네트워크 지점과의 통신이 가능한 상태라면 로컬 노드 자신은 단절된 상황은 아니며, 상대 노드가 장애 상태인 것으로 판단하여 상대 노드에서 운영중인 서비스의 복구를 시도할 수 있습니다.
그러나 그렇지 않은 경우에는 상대 노드가 로컬 노드의 상황을 고립으로 판단합니다.
상대 노드는 로컬 노드를 장애 상태로 결정하고, 로컬에서 운영중인 서비스에 대한 복구를 시도하기 때문에, 로컬 노드는 가능한 빨리 운영중인 서비스를 종료해야 합니다.
원격 노드 장애(Remote Node Fault)
일정 시간 내에 모든 핫빗이 단절된 경우이며 자신이 고립상태가 아니라는 판정이 난 경우에 해당합니다.
로컬 노드가 서비스를 운영중인 경우에는 자신의 상태를 유지하며, 원격 노드에서 구성된 서비스 중에서 운영되지 않는(OFFLINE) 서비스를 기동(ONLINE)시킵니다.