Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

다음은 MCCS의 동작 단계에 따른 노드 상태의 변화 과정을 보여줍니다.

 

Image Removed Image Added

[Figure] MCCS Action step according to Node State

...

If all of the heartbeat communication is disconnected, both nodes cannot exchange the mutual state. 
Service recovery and process are determined by whether the opposite node is declared as a failure, or simply in a state in which the communication paths between nodes are disconnected.

Split Brain

핫빗 네트워크의 단절이 클러스터 속성에 정의되어 있는 일정 시간 간격 이상의 시간차로 발생할 경우는 노드 장애 보다는 핫빗 네트워크 전체에 대한 불안정을 의심할 수 있습니다. 
따라서 핫빗에 의한 노드 상태를 신뢰할 수 없는 상황으로 판단하여, 시스템 장애로 감지하지 않고 현재 상태를 유지합니다.
핫빗 통신이 다시 정상적으로 이루어지면 클러스터에
속한 노드의 속한 노드의 MCCS 서비스를 재시작하고 RUNNING 재시작하고 RUNNING 상태로 복귀합니다. 
그렇지 않으면 INITING 상태에서 핫빗 통신이 정상화될 때까지 대기하게 됩니다.

Isolation

일정 시간 내에 모든 핫빗이 단절된 경우라도 상대 노드를 장애로 판단하기 전에 먼저 로컬 노드 자신이 모든 네트워크로부터 단절된 상황인지를 확인할 필요가 있습니다.
만일 게이트웨이 혹는 DNS 서버와 같이 공인된 네트워크 지점과의 통신이 가능한 상태라면 로컬 노드 자신은 단절된 상황은 아니며, 상대 노드가 장애 상태인 것으로 판단하여 상대 노드에서 운영중인 서비스의 복구를 시도할 수 있습니다.
그러나 그렇지 않은 경우에는 상대 노드가 로컬 노드의 상황을 고립으로 판단합니다.
상대 노드는 로컬 노드를 장애 상태로 결정하고, 로컬에서 운영중인 서비스에 대한 복구를 시도하기 때문에, 로컬 노드는 가능한 빨리 운영중인 서비스를 종료해야 합니다.

Remote Node Fault

When a local node cannot communicate to opposite node within a defined timeout and it is not in an isolation state, local node will try to keep its state as RUNNING, and bring ONLINE the services which taken OFFLINE from remote node.

...