MCCS를 사용하여 서버 이중화를 구성한 후, 서비스 운영 중에 여러 가지 장애가 발생할 수 있습니다.

이 장에서는 MCCS가 어떻게 장애를 감지하고 대처하는지에 대해 다음의 예제에서 상세하게 설명합니다.

(다음 예제에서 운영 서버는 'Active', 대기 서버는 'Standby'란 이름으로 MCCS에 등록되어 있습니다.)

이 페이지의 주요 내용

EMS(Emergency Message Service)의 활용

MCCS는 별도 상용 제품인 EMS(Emergency Message Service)를 통해서 해당 시스템의 심각한 오류나 장애가 발생했을 경우, 자동으로 서버 관리자와 MCCS 제품 서비스 담당자에게 문자 메시지를 전송합니다.

또한 웹 기반의 통합 관제 콘솔을 제공함으로써 인터넷을 통하여 언제 어디서든지 장애 현황을 한 눈으로 파악할 수 있으며, 과거의 장애 이력 검색, 관리, 보고서 작성 등을 쉽게 할 수 있습니다.

EMS 시스템에 대한 상세한 사용방법은 "EMS 사용자 안내서 및 EMS Agent 설치 안내서"를 참조해 주십시오.

EMS 구성요소

EMS 에이전트

MCCS가 설치되는 서버에서 동작하는 프로그램으로 EMS 서버와 통신을 합니다.

EMS 서버

MCCS 제품 유지 보수를 담당하는 업체에 설치된 서버 프로그램을 말합니다.

EMS 업무 흐름

로그 저장

EMS 에이전트가 로그를 저장합니다.

다음과 같은 LogType 속성을 이용하여 EMS 서버에 저장될 로그 종류를 지정할 수 있습니다.

H

HA 관련 로그로 저장됩니다.

(파일감시만 지정 가능합니다.)

A

애플리케이션 관련 로그로 저장됩니다.

(파일감시만 지정 가능합니다.)

S

Windows 시스템 이벤트 로그로 저장됩니다.

(Windows event감시만 지정 가능합니다.)

P

프로세스 관련 로그로 저장됩니다.

(파일감시만 지정 가능합니다.)

로그 분석

EMS 서버 이용자는 EMS 서비스를 받고자 하는 시스템에 대하여 장애 레벨을 설정할 수 있습니다.

EMS 서버는 설정된 장애 레벨을 필터로 사용해서 EMS 에이전트가 실시간으로 전송한 운영 서버의 시스템 로그 및 MCCS 로그를 분석하여 장애 여부를 판단합니다.

SMS 통보

정해진 필터에 의해 장애 감지가 확인되면 EMS는 시스템 담당 운영자와 MCCS 제품 서비스 담당자의 휴대폰에 장애 내용을 SMS(문자메시지)로 통보하여 신속하게 대응할 수 있도록 합니다.

EMS 서버 접속 후, 장애 원인 분석

시스템 담당 운영자 및 MCCS 제품 서비스 담당자는 인터넷 연결이 가능한 곳에서 EMS 서버에 접속하여 장애가 발생한 서버의 로그를 살펴보고 장애 원인을 분석합니다.

또한 제조업 관련 고객사인 경우, EMS 서버를 별도로 구축하면 제품 제조 공정에서 운영되고 있는 수많은 이중화 서버들을 중앙에서 모니터링 할 수 있으며, 통계 정보를 통하여 기간별 장애 유형과 장애 처리 내용들을 검색할 수 있습니다.

다음은 EMS 시스템의 업무 흐름을 도식화 한 것입니다.

[그림] EMS 시스템의 업무 흐름도

EMS 서버의 통합 모니터링 화면

다음은 EMS 서버에서 제공하는 통합 모니터링 화면의 일부입니다.

장애가 발생한 서버는 붉은 색으로, 장애 발생 후에 서버 관리자가 이를 인지하고 정상화 과정에 있는 서버는 노란색으로 표시되며, 파란색으로 표시된 서버는 정상 상태임을 나타냅니다.

물론 EMS 서버에 등록된 사용자는 해당 사용자가 관리하는 서버에 대해서만 내용을 확인할 수 있습니다.

[그림] EMS 시스템의 이중화 서버 모니터링 화면

[그림] EMS 시스템의 통계 화면

공유 디스크 환경 구성의 예

외장 스토리지 장애

외장 디스크의 연결 경로 및 디스크에 장애가 발생하면 해당 디스크의 Read/Write가 불가능하므로 MCCS는 장애를 표시하고 페일오버를 진행합니다.

[그림] 공유 디스크 장애 발생 화면

외장 스토리지 장애는 MCCS 로그, 시스템 로그에서 장애 내역을 확인할 수 있습니다.

외장 스토리지 자체에 문제가 생기면 스토리지를 복구 할 때까지 서버 운영이 중단 됩니다. 따라서 빠른 시간 내에 스토리지를 복구하거나 임시 스토리지(백업 스토리지)로 교체해서 사용해야 합니다.

외장 스토리지와 관련된 장애는 해당 스토리지 업체에 문의하시기 바랍니다.

장애가 발생한 서버의 외장 스토리지 연결 및 디스크가 정상화 되면 MCCS 커널 드라이버가 복구된 환경을 다시 인식할 수 있도록 MCCS의 서버를 재부팅 해야 합니다.

또한 해당 스토리지 벤더를 통해 스토리지의 이중화 대책을 마련해야 합니다.

스탠드얼론 모드(Standalone Mode)로의 전환

MCCS는 서버를 이중화하여 중단 없는 서비스를 고객에게 제공하는 것이 목적입니다.

그렇지만 서비스 운영 중에 일부 노드가 물리적인 장애 또는 운영 체제 상의 장애로 인하여 노드간의 핫빗 통신이 불가능한 상황이 발생할 수 있습니다.

MCCS 에이전트는 짝(Pair)으로 움직입니다. 만일 쌍(Pair)으로 움직이지 못하는 경우가 발생하면 MCCS는 콘솔 접속 등 모든 동작이 정상적으로 이루어지지 않게 되어 단독으로 실행될 수 밖에 없습니다.

이런 상황에서는 한 대의 서버로만 MCCS 서비스를 운영해야 하므로 스탠드얼론 모드로의 전환이 필요하게 됩니다.

스탠드얼론 모드로의 전환 절차

스탠드얼론 모드로 구성할 서버의 MCCS 에이전트 서비스를 종료시킵니다.

[그림] 스탠드얼론 모드 전환 화면 1
$MCCS_HOME\bin\mccsserver.ini 파일을 엽니다.

[그림] 스탠드얼론 모드 전환 화면 2
다음과 같이 '-standalone'을 추가한 후에 저장합니다.

[그림] 스탠드얼론 모드 전환 화면 3
종료시킨 MCCS 에이전트 서비스를 재시작 합니다.
이것으로 MCCS 서비스는 스탠드얼론 모드로 전환되어 운영됩니다.

[그림] 스탠드얼론 모드 전환 화면 4

스탠드얼론 모드의 해제 절차

문제가 있었던 서버가 정상 상태로 돌아오면 서버 관리자는 스탠드얼론 모드를 해제하고, 다음과 같이 서버 이중화 작업을 다시 진행해야 합니다.

MCCS 에이전트를 중지하거나 재시작 해도 운영중인 서비스에는 어떠한 영향도 없습니다.

스탠드얼론 모드의 해제 절차는 다음과 같습니다.

문제가 있었던 서버의 MCCS 에이전트 서비스를 중지합니다.

[그림] 스탠드얼론 모드 해제 화면 1
현재 운영 서버의 MCCS 에이전트 서비스를 중지합니다.

[그림] 스탠드얼론 모드 해제 화면 2
현재 운영 서버의 MccsServer.ini 파일에서 '-standalone'을 삭제하고 저장합니다.

[그림] 스탠드얼론 모드 해제 화면 3
현재 운영 서버의 MCCS 에이전트 서비스를 시작합니다.

[그림] 스탠드얼론 모드 해제 화면 4
문제가 있었던 서버의 MCCS 에이전트 서비스를 시작합니다.

[그림] 스탠드얼론 모드 해제 화면 5
콘솔을 연결하고 MCCS 서비스 상태를 확인합니다.

[그림] 스탠드얼론 모드 해제 화면 6

SCSI Lock 에이전트 환경 구성의 예

SCSI3-PR 을 사용하는 볼륨매니저와 연동할 때

볼륨 매니져(예: 시멘택의 SFW 같이 SCSI3-PR 예약 기능을 사용하는 제품)는 SCSI Lock 에이전트와 같이 사용할 수 없습니다.

SCSI3-PR을 지원하는지 확인할 때

디스크가 SCSI3-PR 기능을 지원하는지 scsicmd명령으로 PR 타입을 확인합니다.

sg_scan 또는 sg_persist 패스를 못 찾을 때

SG3_UTIL 패키지가 OS에 설치돼었는지 확인합니다.

공유 디스크 에이전트와 연동할 때

공유디스크 에이전트와 SCSI Lock 에이전트를 연동할 경우, 공유디스크 에이전트 동작이 정상임을 확인 한 후에 SCSI Lock 에이전트를 등록합니다.

이때 SCSI Lock 에이전트의 디스크 사용목적은 H/W적인 LOCK 장치로 사용하기 위함이지 디스크의 내용을 사용하지는 않습니다. 따라서 디스크의 크기는 작아도 되며 내용은 보호하지 않습니다.

등록 키 충돌 오류가 날 때

scsicmd-c 옵션 혹은 scsicmd-cf 옵션 으로 예약키 또는 등록키를 모두 제거한 후 다시 설정해야합니다. 그리고 리소스 등록전에는 등록된 키는 없는지 확인하고 있으면 제거후 등록해야 합니다.

참고로 현재 키는 노드의 MAC 주소를 사용하여 자동으로 설정합니다. 여러개의 네트웍 어탭터중에서 첫 번째 어탭터의 MAC 주소를 사용합니다. 이 키는 설정파일에 자동 기록합니다. 설정파일에 키가 존재할 경우에는 키를 새로 만들지 않습니다.

에이전트 등록 후 DUID가 해결되지 못한 상태로 유지될 때

레터를 정의하고 활성화를 요청해야 main.json에 해당 레터에 연결된 DUID 정보가 기록됩니다.

에이전트 삭제할 때

SCSI Lock 에이전트가 삭제될때 예약을 해제합니다. 따라서 예약대상 공유디스크가 상대 노드에서 사용될 가능성을 염두에 두고 삭제를 해야 합니다. 즉 삭제할 경우에는 상대 노드를 다운시킨 후 작업하십시오.

서포트 파일을 수집하는 방법

MCCS 에 문제가 생겼을 경우 로그와 환경 정보의 수집을 위해서 서포트 파일을 수집할 수 있습니다.

서포트 파일을 수집하는 방법은 다음과 같이 2가지가 있습니다.

콘솔을 통해서 수집하는 방법

MCCS 의 콘솔 중 아래와 같은 툴바의 아이콘을 클릭하면 서포트 파일을 수집할 수 있습니다.

[그림] 서포트 파일 수집 아이콘1

[그림] 서포트 파일 수집 아이콘2

서포트 파일을 수집할 노드의 선택과 이전에 받은 서포트파일을 다시 받을 수 있습니다.

[그림] 서포트 파일 노드 선택 및 이전 서포트 파일 선택 여부

확인 버튼을 누르면 서포트 파일을 수집합니다.

[그림] 서포트 파일 수집 중 화면

로그파일의 용량과 네트워크의 상태에 따라서 몇 분이 걸릴 수도 있습니다.

아래와 같이 다운로드 창이 열리게 되고 다운받으시면 됩니다.

수집된 서포트 파일은 지정된 위치에서 확인할 수 있습니다.

[그림] 서포트 파일 수집 확인

스크립트 파일을 실행해서 수집하는 방법

스크립트 파일의 위치는 아래와 같습니다.

$MCCS_HOME/bin/Support/support.cmd

이 방법은 스크립트를 실행한 노드의 정보만 수집합니다.

수집된 서포트 파일은 다음의 위치에 생성됩니다.

$MCCS_HOME/support-$HOSTNAME/$HOSTNAME.zip

만약 이미 서포트 파일이 존재한다면 새로운 파일이 기존의 파일을 덮어쓰게 되므로 수집전에 주의 하시기 바랍니다.

부록A- 장애 유형별 대처 방법

EMS(Emergency Message Service)의 활용

EMS 구성요소

EMS 에이전트

EMS 서버

EMS 업무 흐름

로그 저장

로그 분석

SMS 통보

EMS 서버 접속 후, 장애 원인 분석

EMS 서버의 통합 모니터링 화면

공유 디스크 환경 구성의 예

외장 스토리지 장애

스탠드얼론 모드(Standalone Mode)로의 전환

스탠드얼론 모드로의 전환 절차

스탠드얼론 모드의 해제 절차

SCSI Lock 에이전트 환경 구성의 예

SCSI3-PR 을 사용하는 볼륨매니저와 연동할 때

SCSI3-PR을 지원하는지 확인할 때

sg_scan 또는 sg_persist 패스를 못 찾을 때

공유 디스크 에이전트와 연동할 때

등록 키 충돌 오류가 날 때

에이전트 등록 후 DUID가 해결되지 못한 상태로 유지될 때

에이전트 삭제할 때

서포트 파일을 수집하는 방법

콘솔을 통해서 수집하는 방법

스크립트 파일을 실행해서 수집하는 방법