Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Section

 

Column

MCCS를 사용하여 서버 이중화를 구성한 후, 서비스 운영 중에 여러 가지 장애가 발생할 수 있습니다.

이 장에서는 MCCS가 어떻게 장애를 감지하고 대처하는지에 대해 다음의 예제에서 상세하게 설명합니다.

(다음 예제에서 운영 서버는 'Active', 대기 서버는 'Standby'란 이름으로 MCCS에 등록되어 있습니다.)

 

Column
width350px

 

Panel

이 페이지의 주요 내용

Table of Contents
maxLevel4

 

 

 

EMS(Emergency Message Service)의 활용

MCCS는 별도 상용 제품인 EMS(Emergency Message Service)를 통해서 해당 시스템의 심각한 오류나 장애가 발생했을 경우, 자동으로 서버 관리자와 MCCS 제품 서비스 담당자에게 문자 메시지를 전송합니다.

또한 웹 기반의 통합 관제 콘솔을 제공함으로써 인터넷을 통하여 언제 어디서든지 장애 현황을 한 눈으로 파악할 수 있으며, 과거의 장애 이력 검색, 관리, 보고서 작성 등을 쉽게 할 수 있습니다.

EMS 시스템에 대한 상세한 사용방법은 "EMS 사용자 안내서 및 EMS Agent 설치 안내서"를 참조해 주십시오.

EMS 구성요소

EMS 에이전트

MCCS가 설치되는 서버에서 동작하는 프로그램으로 EMS 서버와 통신을 합니다.

EMS 서버

MCCS 제품 유지 보수를 담당하는 업체에 설치된 서버 프로그램을 말합니다.

EMS 업무 흐름

로그 저장

EMS 에이전트가 로그를 저장합니다.

다음과 같은 LogType 속성을 이용하여 EMS 서버에 저장될 로그 종류를 지정할 수 있습니다.

H

HA 관련 로그로 저장됩니다.

(파일감시만 지정 가능합니다.)

A

애플리케이션 관련 로그로 저장됩니다.

(파일감시만 지정 가능합니다.)

S

Windows 시스템 이벤트 로그로 저장됩니다.

(Windows event감시만 지정 가능합니다.)

P

프로세스 관련 로그로 저장됩니다.

(파일감시만 지정 가능합니다.)


로그 분석

EMS 서버 이용자는 EMS 서비스를 받고자 하는 시스템에 대하여 장애 레벨을 설정할 수 있습니다.

EMS 서버는 설정된 장애 레벨을 필터로 사용해서 EMS 에이전트가 실시간으로 전송한 운영 서버의 시스템 로그 및 MCCS 로그를 분석하여 장애 여부를 판단합니다.


SMS 통보

정해진 필터에 의해 장애 감지가 확인되면 EMS는 시스템 담당 운영자와 MCCS 제품 서비스 담당자의 휴대폰에 장애 내용을 SMS(문자메시지)로 통보하여 신속하게 대응할 수 있도록 합니다.


EMS 서버 접속 후, 장애 원인 분석

시스템 담당 운영자 및 MCCS 제품 서비스 담당자는 인터넷 연결이 가능한 곳에서 EMS 서버에 접속하여 장애가 발생한 서버의 로그를 살펴보고 장애 원인을 분석합니다.

또한 제조업 관련 고객사인 경우, EMS 서버를 별도로 구축하면 제품 제조 공정에서 운영되고 있는 수많은 이중화 서버들을 중앙에서 모니터링 할 수 있으며, 통계 정보를 통하여 기간별 장애 유형과 장애 처리 내용들을 검색할 수 있습니다.

다음은 EMS 시스템의 업무 흐름을 도식화 한 것입니다.

[그림] EMS 시스템의 업무 흐름도


EMS 서버의 통합 모니터링 화면

다음은 EMS 서버에서 제공하는 통합 모니터링 화면의 일부입니다.

장애가 발생한 서버는 붉은 색으로, 장애 발생 후에 서버 관리자가 이를 인지하고 정상화 과정에 있는 서버는 노란색으로 표시되며, 파란색으로 표시된 서버는 정상 상태임을 나타냅니다.

물론 EMS 서버에 등록된 사용자는 해당 사용자가 관리하는 서버에 대해서만 내용을 확인할 수 있습니다.

[그림] EMS 시스템의 이중화 서버 모니터링 화면


[그림] EMS 시스템의 통계 화면


...

  1. 서버의 정상 혹은 비정상 종료에 따른 MCCS의 역할에는 차이점이 없습니다. MCCS는 운영 서버에서 장애가 발생하면 대기 서버로 페일오버를 진행합니다.
    화면의 오른쪽에 있는 노드 관리에서 해당 서버를 선택하면 '리소스 상태' 및 '리소스 의존성' 화면을 통하여 장애를 확인할 수 있습니다.
    • 정상 종료 사용자가 운영체제에서 '시스템 종료'를 선택한 경우를 말합니다.
    • 비정상 종료 블루스크린 또는 예기치 않은 상황으로 인해 시스템 종료 혹은 재부팅 되는 경우를 말합니다.

    [그림] 운영 서버 장애 발생 화면

  2. 서버 장애로 인해 데이터를 복제 할 수 없기 때문에 미러 디스크 리소스 부분 에 Image Removed표시가 부분에 Image Added 표시가 생깁니다.
  3. 서버 운영자는 장애를 발생시킨 부분을 확인하여 서버를 정상화 시켜야 합니다.
  4. 장애가 발생한 서버가 다시 부팅이 되면 MCCS는 두 서버간의 상호 미러 역할을 확인 후 장애가 발생한 서버를 복제 타깃으로 설정하고 부분 동기화를 진행합니다.

...

  1. 대기 서버에 장애가 발생하면 MCCS는 해당 서버에 장애 발생을 표시합니다.
  2. 대기 서버가 정상화 되기 전까지 데이터 복제를 잠시 중단합니다. 


    [그림] 대기 서버 장애 발생 화면

  3. 데이터 동기화가 불가능해지고 미러 디스크가 '네트워크 연결 실패' 상태(Image Removed Image Added )가 됩니다.
  4. 대기 서버에서 장애가 발생하면 운영상에는 문제가 없지만 페일오버할 대상이 없으므로 서버 운영자는 반드시 MCCS 웹 콘솔을 통하여 장애를 확인하고 대기 서버를 정상화 시켜야 합니다.
  5. 대기 서버가 다시 정상으로 돌아되면, Image Removed Image Added 아이콘이 사라집니다.
  6. 미러디스크의 DiskState 상태 값은  'Inconsistent'  에서 'UpToDate' 상태로 변경되기 위해, 데이타 동기화()를 진행합니다. 
  7. 동기화가 완료가 되면, 현재 정상 데이터가 실시간 동기화되고 있다. (Image Removed Image Added )는 상태로 변경됩니다. 

응용프로그램 장애

운영중인 응용프로그램 리소스에 대하여 MCCS는 다음과 같은 4가지 요소에 의해 동작을 하게 됩니다.

...

  1. MCCS에서 타깃 디스크에 대한 장애 감지는 해당 디스크의 DiskState 상태에 대한 값만을 출력합니다. 
  2. 디스크 장애 발생 요인은 다음과 같은 경우가 있을 수 있습니다.위의 문제가 해결 된 후에 운영 체제는 변경된 디스크를 다시 인식합니다.이후 DRBD에서 동기화를 진행합니다.
    • 디스크 컨트롤러 문제 하드웨어 자체 문제는 해당 업체에서 해결해야 합니다.
    • 물리적인 디스크 문제 하드웨어 자체 문제는 해당 업체에서 해결해야 합니다.
  3. 미러 리소스에서 에서 동기화가 진행되지 않으면 미러디스크 리소스를 삭제한 후에 다시 생성생성 시도합니다. 단, 삭제시 리소스만 삭제가 아니라 생성된 미러까지 삭제 하고 다시 생성해야 합니다. 

...