[MIP-302] system fail시 split으로 오판

Subject
system fail시 split으로 오판


APPLIES TO:
"MCCS version: 3.1.5
OS: Windows server 2008 ENT SP2
APPs: -
Disk Type: -"




SYMPTOMS
"active서버를 재시작 했을때 standby서버에서,
'네트워크 단절 시간이 30초를 초과했습니다.(split)' 라는 로그와 함께 failover가 되지 못하는 현상을 두번 겪었습니다.
로그 내용에 대해서는 정확하지 않고, 기억나는데로 쓴것이고, 해당 서버는 현재 부팅이 되지 않아 로그확인이 불가능합니다
실제 system fail로 인지되어야 되는 상황인데 split으로 판단하는것은 체크 타임을 수정해야 할 부분이라 생각됩니다.
그리고 모든 네트워크로 ping이 끊긴 후 최종 시스템 장애라고 판단하는데 까지(서버가 완전히 shutdown되는데까지)
그걸 판단하는 조건이 무엇인지 궁금합니다.
p.s 서버 자체를 force shutdown 하였을 시에는 당연히 정상 failover됩니다"



CAUSE




SOLUTION
"클러스터 속성에 NodeFaultDetectionTime이 Split 판정 시간입니다.
NodeFaultDetectionTime을 최대 300초까지 설정했으니, 문제가 발생할 때마다 시간을 조금씩 늘려서 사용하시기 바랍니다."