...
각 장치(NIC, Raid Controller)의 드라이버 충돌, 기타 응용프로그램의 커널 드라이버 문제 등으로 시스템이 자동 재부팅 또는 셧다운 되는 경우입니다.
운영 서버 장애장애
- 서버의 정상 혹은 비정상 종료에 따른 MCCS의 역할에는 차이점이 없습니다. MCCS는 운영 서버에서 장애가 발생하면 대기 서버로 페일오버를 진행합니다.
화면의 오른쪽에 있는 노드 관리에서 해당 서버를 선택하면 '리소스 상태' 및 '리소스 의존성' 화면을 통하여 장애를 확인할 수 있습니다.- 정상 종료 사용자가 운영체제에서 '시스템 종료'를 선택한 경우를 말합니다.
- 비정상 종료 블루스크린 또는 예기치 않은 상황으로 인해 시스템 종료 혹은 재부팅 되는 경우를 말합니다.
[그림] 운영 서버 장애 발생 화면 - 서버 장애로 인해 데이터를 복제 할 수 없기 때문에 미러 디스크 리소스 부분 에 표시가 생깁니다.
- 서버 운영자는 장애를 발생시킨 부분을 확인하여 서버를 정상화 시켜야 합니다.
- 장애가 발생한 서버가 다시 부팅이 되면 MCCS는 두 서버간의 상호 미러 역할을 확인 후 장애가 발생한 서버를 복제 타깃으로 설정하고 부분 동기화를 진행합니다.
...
- 대기 서버에 장애가 발생하면 MCCS는 해당 서버에 장애 발생을 표시합니다.
- 대기 서버가 정상화 되기 전까지 데이터 복제를 잠시 중단합니다.
[그림] 대기 서버 장애 발생 화면 - I/O가 계속 발생된다면 데이터 동기화가 불가능해지고 미러 디스크가 'Pause' 상태(아이콘 표시 변경)가 됩니다.
- 만일, I/O 발생이 없다면 미러 디스크의 아이콘 부분에 아무런 변화가 나타나지 않지만 MCCS 로그 창에는 미러 디스크 관련 장애 메시지가 나타납니다.
- 대기 서버에서 장애가 발생하면 운영상에는 문제가 없지만 페일오버할 대상이 없으므로 서버 운영자는 반드시 MCCS UI를 통하여 장애를 확인하고 대기 서버를 정상화 시켜야 합니다.
- 대기 서버가 다시 정상으로 돌아되면 'Pause' 에서 'Normal' 상태로 복구되면서 아이콘이 사라집니다.
...
- MCCS는 MonitorInterval에 의해서 해당 리소스를 감시합니다.
- MonitorTimeout에 설정된 시간만큼 응답이 없으면 해당 리소스가 장애라고 판단합니다.
- RestartLimit에 설정된 횟수만큼 해당 리소스에 재시작 명령을 내려도 응답이 없으면 MCCS는 그 리소스가 속해 있는 그룹을 페일오버합니다.
- 리소스가 OnlineTrustTime에 정의되어 있는 시간 동안 정상 상태를 유지하면 MCCS는 RestartLimit의 속성값을 초기화 합니다. 왜냐하면 리소스에 장애가 발생할 경우에 재시작 횟수를 보장하기 위해서입니다.
- 응용프로그램 장애로 인해 페일오버가 되었다면 서버 운영자는 장애를 발생시킨 부분을 확인하여 정상화 시켜야 합니다.
- 장애가 발생한 부분은 MCCS UI 창에서 창에서 확인할 수 있으며, 장애가 발생한 부분을 사용자가 확인한 후에 장애 표시를 제거해 주어야 다시 페일오버 기능이 활성화됩니다.
자동으로 장애 표시를 제거하고자 할 경우에는 그룹 속성의 AutoFaultClearTime에 0보다 큰 값을 설정하면 됩니다. - 장애가 발생한 서버가 다시 부팅이 되면 MCCS는 두 서버간의 상호 미러 역할을 확인한 후에 장애가 발생한 서버를 복제 타깃으로 설정하고 동기화를 진행합니다.
[그림] 리소스 장애 표시 제거 화면
...