Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

 

Section

 

Column

MCCS를 사용하여 서버 이중화를 구성한 후, 서비스 운영 중에 여러 가지 장애가 발생할 수 있습니다.
이 장에서는 MCCS가 어떻게 장애를 감지하고 대처하는지에 대해 다음의 예제에서 상세하게 설명합니다.
(다음 예제에서 운영 서버는 'Active', 대기 서버는 'Standby'란 이름으로 MCCS에 등록되어 있습니다.)

 

Column
width350px

 

Panel

이 페이지의 주요 내용

Table of Contents
maxLevel4

 

 

 

EMS(Emergency Message Service)의 활용

MCCS는 별도 상용 제품인 EMS(Emergency Message Service)를 통해서 해당 시스템의 심각한 오류나 장애가 발생했을 경우, 자동으로 서버 관리자와 MCCS 제품 서비스 담당자에게 문자 메시지를 전송합니다.
또한 웹 기반의 통합 관제 콘솔을 제공함으로써 인터넷을 통하여 언제 어디서든지 장애 현황을 한 눈으로 파악할 수 있으며, 과거의 장애 이력 검색, 관리, 보고서 작성 등을 쉽게 할 수 있습니다.

EMS 구성요소

EMS 에이전트

MCCS가 설치되는 서버에서 동작하는 프로그램으로 EMS 서버와 통신을 합니다.

EMS 서버

MCCS 제품 유지 보수를 담당하는 업체에 설치된 서버 프로그램을 말합니다.

EMS 업무 흐름

로그 저장

EMS 에이전트가 로그를 저장합니다.
다음과 같은 LogType 속성을 이용하여 EMS 서버에 저장될 로그 종류를 지정할 수 있습니다.

H

HA 관련 로그로 저장됩니다.

(파일감시만 지정 가능합니다.)

A

애플리케이션 관련 로그로 저장됩니다.

(파일감시만 지정 가능합니다.)

S

Windows 시스템 이벤트 로그로 저장됩니다.

(Windows event감시만 지정 가능합니다.)

P

프로세스 관련 로그로 저장됩니다.

(파일감시만 지정 가능합니다.)


로그 분석

EMS 서버 이용자는 EMS 서비스를 받고자 하는 시스템에 대하여 장애 레벨을 설정할 수 있습니다.
EMS 서버는 설정된 장애 레벨을 필터로 사용해서 EMS 에이전트가 실시간으로 전송한 운영 서버의 시스템 로그 및 MCCS 로그를 분석하여 장애 여부를 판단합니다.


SMS 통보

정해진 필터에 의해 장애 감지가 확인되면 EMS는 시스템 담당 운영자와 MCCS 제품 서비스 담당자의 휴대폰에 장애 내용을 SMS(문자메시지)로 통보하여 신속하게 대응할 수 있도록 합니다.


EMS 서버 접속 후, 장애 원인 분석

시스템 담당 운영자 및 MCCS 제품 서비스 담당자는 인터넷 연결이 가능한 곳에서 EMS 서버에 접속하여 장애가 발생한 서버의 로그를 살펴보고 장애 원인을 분석합니다.
또한 제조업 관련 고객사인 경우, EMS 서버를 별도로 구축하면 제품 제조 공정에서 운영되고 있는 수많은 이중화 서버들을 중앙에서 모니터링 할 수 있으며, 통계 정보를 통하여 기간별 장애 유형과 장애 처리 내용들을 검색할 수 있습니다.
다음은 EMS 시스템의 업무 흐름을 도식화 한 것입니다.

[그림] EMS 시스템의 업무 흐름도


EMS 서버의 통합 모니터링 화면

다음은 EMS 서버에서 제공하는 통합 모니터링 화면의 일부입니다.
장애가 발생한 서버는 붉은 색으로, 장애 발생 후에 서버 관리자가 이를 인지하고 정상화 과정에 있는 서버는 노란색으로 표시되며, 파란색으로 표시된 서버는 정상 상태임을 나타냅니다.
물론 EMS 서버에 등록된 사용자는 해당 사용자가 관리하는 서버에 대해서만 내용을 확인할 수 있습니다.

[그림] EMS 시스템의 이중화 서버 모니터링 화면


[그림] EMS 시스템의 통계 화면



...

  1. 리소스 속성창을 확인합니다. 

    [그림] 미러디스크 스플릿 브레인 확인


  2. 미러관리 창을 확인합니다.


    [그림] 미러디스크 스플릿 브레인 확인

    Warning

    1)양노드의 ConnectState는 StandAlone 이며, SplitBrainStatus 값은 True가 됩니다.
    2) 미러디스크의 LastMirrorOnlineTime을 확인합니다. (LastMirrorOnlineTime은 시스템의 시간이므로 최신 데이터의 유무를 결정할 수 있는 절대값 아닙니다)
    3) 스플릿 브레인이 발생했을 때 발생하는 로그가 출력됩니다. 
    (DRBD 볼륨(r0)에 스플릿브레인이 발생했습니다.)
    4) 미러관리 창에서 미러 상태가 'SPLIT' 상태 입니다.

  3. 미러디스크를 선택하고 오른쪽 버튼을 클릭하여 '스플릿 브레인 해결'을 클릭합니다.

    [그림] 스플릿 브레인 해결  선택

  4. 스플릿브레인에 대한 설명창이 출력됩니다.
     
    [그림] 소스 노드 선택에 대한 내용 확인

  5. 소스노드를 선택합니다.

    [그림] 소스 롤 노드 선택

  6. 선택한 소스노드에 대해 다시 한번 확인합니다.

    [그림] 소스 노드 선택 다시 확인

  7. 스플릿해결 중인 화면입니다.

    [그림] 스플릿 브레인 해결 화면

  8. 스플릿해결 완료 화면입니다.

    [그림] 스플릿 브레인 해결 완료 화면

  9. 선택한 노드가 소스노드가 되고 미러디스크의 DiskState 상태는 UpToData로 바뀌게 됩니다. 

    [그림] 스플릿 브레인 해결

    Warning

    노드 B 의 변경된 정보는 모두 덮어써지게 됩니다

     

...

공유디스크 에이전트와 SCSI Lock 에이전트를 연동할 경우, 공유디스크 에이전트 동작이 정상임을 확인 한 후에 SCSI Lock 에이전트를 등록합니다.
이때 SCSI Lock 에이전트의 디스크 사용목적은 H/W적인 LOCK 장치로 사용하기 위함이지 디스크의 내용을 사용하지는 않습니다. 따라서 디스크의 크기는 작아도 되며 내용은 보호하지 않습니다.

...

scsicmd.cmd -c 옵션 혹은 scsicmd.cmd -cf 옵션 으로 예약키 또는 등록키를 모두 제거한 후 다시 설정해야합니다. 그리고 리소스 등록전에는 등록된 키는 없는지 확인하고 있으면 제거후 등록해야 합니다.
참고로 현재 키는 노드의 MAC 주소를 사용하여 자동으로 설정합니다. 여러개의 네트웍 어탭터중에서 첫 번째 어탭터의 MAC 주소를 사용합니다. 이 키는 설정파일에 자동 기록합니다. 설정파일에 키가 존재할 경우에는 키를 새로 만들지 않습니다.

...

MCCS 에 문제가 생겼을 경우 로그와 환경 정보의 수집을 위해서 서포트 파일을 수집할 수 있습니다.
서포트 파일을 수집하는 방법은 다음과 같이 2가지가 있습니다.

...

  1. MCCS 웹콘솔에서 메뉴바의 '파일'을 클릭하여 서포트 파일을 수집할 수 있습니다.

    [그림] 메뉴바에서 서포트 파일 수집  

  2. MCCS의 툴바 아이콘을 클릭하면 서포트 파일을 수집할 수 있습니다.

    [그림] 툴바에서 서포트 파일 수집

  3. 서포트 파일을 수집할 노드의 선택과 이전에 받은 서포트파일을 다시 받을 수 있습니다.

    [그림] 서포트 파일 노드 선택 및 이전 서포트 파일 선택 여부

  4. 확인 버튼을 누르면 서포트 파일을 수집합니다.

    [그림] 서포트 파일 수집 중 화면

     

    Info

    로그파일의 용량과 네트워크의 상태에 따라서 몇 분이 걸릴 수도 있습니다.


  5. 아래와 같이 다운로드 창이 열리게 되고 다운받으시면 됩니다.


  6. 수집된 서포트 파일은 지정된 위치에서 확인할 수 있습니다.

    [그림] 서포트 파일 수집 확인

...