응용프로그램 장애


이 페이지의 주요 내용




운영중인 응용프로그램 리소스에 대하여 MCCS는 다음과 같은 4가지 요소에 의해 동작을 하게 됩니다.

  • MonitorInterval (기본값=10초)
    설정된 값을 주기로 리소스를 감시합니다. 
  • MonitorTimeout (기본값=10초)
    설정된 값 만큼 응답이 오지 않으면 장애로 판단합니다. 
  • RestartLimit (기본값=0)
    설정된 값만큼 해당 응용프로그램 리소스를 재시작합니다. 
  • OnlieTrustTime (기본값=600초) 
    리소스 재시작 횟수를 재설정하는 시간입니다. 
    위의 속성값들은 해당 리소스를 등록할 때 설정된 값이고, 사용자는 각 리소스의 속성 페이지를 통하여 값을 수정하거나 확인할 수 있습니다. 

    [그림] 리소스 속성값 수정 화면

  1. MCCS는 MonitorInterval에 의해서 해당 리소스를 감시합니다.
  2. MonitorTimeout에 설정된 시간만큼 응답이 없으면 해당 리소스가 장애라고 판단합니다.
  3. RestartLimit에 설정된 횟수만큼 해당 리소스에 재시작 명령을 내려도 응답이 없으면 MCCS는 그 리소스가 속해 있는 그룹을 페일오버합니다.
  4. 리소스가 OnlineTrustTime에 정의되어 있는 시간 동안 정상 상태를 유지하면 MCCS는 RestartLimit의 속성값을 초기화 합니다. 왜냐하면 리소스에 장애가 발생할 경우에 재시작 횟수를 보장하기 위해서입니다.
  5. 응용프로그램 장애로 인해 페일오버가 되었다면 서버 운영자는 장애를 발생시킨 부분을 확인하여 정상화 시켜야 합니다.
  6. 장애가 발생한 부분은 MCCS 웹 콘솔에서 확인할 수 있으며, 장애가 발생한 부분을 사용자가 확인한 후에 장애 표시를 제거해 주어야 다시 페일오버 기능이 활성화됩니다.
    자동으로 장애 표시를 제거��고자 할 경우에는 그룹 속성의 AutoFaultClearTime에 0보다 큰 값을 설정하면 됩니다. 
  7. 장애가 발생한 서버가 다시 부팅이 되면 MCCS는 두 서버간의 상호 미러 역할을 확인한 후에 장애가 발생한 서버를 복제 타깃으로 설정하고 동기화를 진행합니다.


    [그림] 리소스 장애 표시 제거 화면