[MIP-305] standby 노드에서 일부 Resource가 Online된것으로 확인되어 Failover시 모든 Resource가 Online 되지 않음

Subject
Standby 노드에서 일부 Resource가 Online된것으로 확인되어 Failover시 모든 Resource가 Online 되지 않음.


APPLIES TO:
"MCCS version: MCCS 3.1.0(r3485)
OS: Windows 2008 x86 Standard Edtion SP1
APPs: -
Disk Type: -"




SYMPTOMS
"해당사이트 히스토리 입니다.
20101009(r3485) 설치 -> 메모리누수 -> 20110330(r94066) 재설치 -> Hang발생 -> 20101009(r3485) 재설치 (현재버전) -> Failver 이슈 발생.
금일 한쪽서버에서 예기치 않은 시스템 종료가 발생하여 Failover 시도하였으나 일부 Resource만 Failover 되었습니다.
MCCS Log상으로는 RG자체는 정상 Online 된것으로 확인됩니다.
제가 방문했을 당시에는 이미 양쪽서버를 리부팅하여 서비를 정상화 해놓은 상태로 장애당시의 상황은 직접 확인하지는 못했습니다.
담당자가 확인한 최초 상황은
WCL57E 서버는 리부팅 되어 로그인창이 떠있는 상태였으며,
WPC51E 서버에 VIP 이후 Rsource(Share_Z, MSSQLServer, MSSQLAgent)가 Online 되지않은 상태 였다고 합니다.
11/07/26-15:36:05 WCL57E 노드에서 'SQL_RG' 그룹 상태 변경(PARTIAL -> ONLINE)
11/08/04-10:44:47 다음 오류로 인해 v3engine 서비스를 시작하지 못했습니다. 시스템 리소스가 부족하기 때문에 요청한 서비스를 완성할 수 없습니다.(WPC51E - Windowns System Log 내용)
11/08/04-10:44:47 다음 오류로 인해 CdmDrvNt 서비스를 시작하지 못했습니다. 시스템 리소스가 부족하기 때문에 요청한 서비스를 완성할 수 없습니다.(WPC51E - Windowns System Log 내용)
이후 V3engine, CdmDrvNt가 시스템 리소스 부족으로 인해 서비스를 완성 할 수 없다는 로그가 금일 서버 재부팅 전까지 계속 확인됨.
WPC51E - Windowns System Log 내용)
11/08/04-11:48:26 WPC51E 노드에서 리소스 상태 변경 Shared_Z - ONLINE
11/08/04-12:48:19 WPC51E 노드에서 리소스 상태 변경 SQLServer - ONLINE
11/08/04-13:50:19 WPC51E 노드에서 리소스 상태 변경 SQLServerAgent - ONLINE
11/08/12-05:03:50 WCL57E 예기치 않은 시스템 종료가 발생. (WCL57E - Windowns System Log 내용)
11/08/12-05:05:01 그룹 온라인 시도 [WPC51E 노드 : SQL_RG 그룹]
11/08/12-05:05:03 리소스 상태 변경 [10.1.9.117 - 온라인]
11/08/12-05:05:03 WPC51E노드에서 'SQL_RG' 그룹 상태 (PARTIAL -> ONLINE)
리소스 부족으로 인한 문제로 일단 담당자에게 설명드렸으며,
이에 담당자는 오늘 정식으로 원인분석과, 해결방안을 가지고 직접 방문해 달라고 요청하였습니다."



CAUSE




SOLUTION
"해당이슈는 MCCS 3.2.(r95780)_2011.11.04로 Upgrade 하였으며,
이후 하루에 3Mb 씩 메모리가 증가하는 상태였음.
HB Network간의 통신이 되지 않는 상태로 운영되다가 Active Server에서 Blue Screen발생함.
HB Network통신 되지 않던 문제로 인해 MCCS에서 SPLIT으로 인지되어 Failover가 진행 되지 않음.
로직상 문제는 없었다고 설명 되었으나, 담당자의 결정으로 인해 MCCS를 제거함."