Section | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
EMS(Emergency Message Service)의 활용
MCCS는 별도 상용 제품인 EMS(Emergency Message Service)를 통해서 해당 시스템의 심각한 오류나 장애가 발생했을 경우, 자동으로 서버 관리자와 MCCS 제품 서비스 담당자에게 문자 메시지를 전송합니다.
또한 웹 기반의 통합 관제 콘솔을 제공함으로써 인터넷을 통하여 언제 어디서든지 장애 현황을 한 눈으로 파악할 수 있으며, 과거의 장애 이력 검색, 관리, 보고서 작성 등을 쉽게 할 수 있습니다.
EMS 구성요소
EMS 에이전트
MCCS가 설치되는 서버에서 동작하는 프로그램으로 EMS 서버와 통신을 합니다.
EMS 서버
MCCS 제품 유지 보수를 담당하는 업체에 설치된 서버 프로그램을 말합니다.
EMS 업무 흐름
로그 저장
EMS 에이전트가 로그를 저장합니다.
다음과 같은 LogType 속성을 이용하여 EMS 서버에 저장될 로그 종류를 지정할 수 있습니다.
...
프로세스 관련 로그로 저장됩니다.
(파일감시만 지정 가능합니다.)
로그 분석
EMS 서버 이용자는 EMS 서비스를 받고자 하는 시스템에 대하여 장애 레벨을 설정할 수 있습니다.
EMS 서버는 설정된 장애 레벨을 필터로 사용해서 EMS 에이전트가 실시간으로 전송한 운영 서버의 시스템 로그 및 MCCS 로그를 분석하여 장애 여부를 판단합니다.
SMS 통보
정해진 필터에 의해 장애 감지가 확인되면 EMS는 시스템 담당 운영자와 MCCS 제품 서비스 담당자의 휴대폰에 장애 내용을 SMS(문자메시지)로 통보하여 신속하게 대응할 수 있도록 합니다.
...
다음은 EMS 시스템의 업무 흐름을 도식화 한 것입니다.
[그림] EMS 시스템의 업무 흐름도
EMS 서버의 통합 모니터링 화면
다음은 EMS 서버에서 제공하는 통합 모니터링 화면의 일부입니다.
...
[그림] EMS 시스템의 이중화 서버 모니터링 화면
[그림] EMS 시스템의 통계 화면
...
서버 장애
각 장치(NIC, Raid Controller)의 드라이버 충돌, 기타 응용프로그램의 커널 드라이버 문제 등으로 시스템이 자동 재부팅 또는 셧다운 되는 경우입니다.
...
- 네트워크 스위치 장애는 MCCS 로그, 윈도우 시스템 로그에서 장애 내역을 확인할 수 있습니다.
서버 관리자는 케이블 연결 상태 및 ping 테스트를 통해 해당 네트워크 스위치 상태 및 네트워크 연결 상태를 확인하고 장애 원인을 제거해야 합니다. - 자동으로 장애 표시를 제거하려면 그룹 속성의 AutoFaultClearTime에 0보다 큰 값을 설정하면 됩니다.
- 네트워크 스위치 장애에 대한 복구는 해당 제조사를 통하여 지원 받으시기 바랍니다.
디스크 장애
미러 디스크 환경 구성의 예
내장 스토리지 장애
- 소스 디스크 장애 운영 서버의 미러 디스크 리소스에 장애가 발생하면 MCCS GUI에 장애가 표시됩니다. MCCS는 해당 디스크에 Read/Write가 불가능한 상황이므로 장애로 인식하여 대기 서버로 페일오버를 진행합니다.
[그림] 미러 디스크 장애 발생 화면
...
- MCCS에서 타깃 디스크에 대한 장애 감지는 해당 디스크의 드라이브 문자가 있는지 없는지 만을 판단합니다.
- 디스크 장애 발생 요인은 다음과 같은 경우가 있을 수 있습니다.위의 문제가 해결 된 후에 운영 체제는 변경된 디스크를 다시 인식합니다.이후 DataKeeper에서 동기화를 진행합니다.
- 디스크 컨트롤러 문제 하드웨어 자체 문제는 해당 업체에서 해결해야 합니다.
- 물리적인 디스크 문제 하드웨어 자체 문제는 해당 업체에서 해결해야 합니다.
- 단, DataKeeper에서 동기화가 진행 되지 않으면 job을 삭제한 후에 다시 생성해야 합니다. 이전과 동일한 job을 생성한다면 MCCS의 미러 디스크 리소스를 수정할 필요는 없습니다.
미러 디스크 리소스의 Split Brain
매우 드문 경우이지만 두 서버상에서 미러 디스크 역할이 모두 소스로 인식되는 경우입니다.
...
미러 디스크 역할을 수동으로 변경하는 방법은 MCCS 콘솔을 이용하면 됩니다.
...
MCCS UI을 사용해서
...
스플릿브레인을 해결하는 방법
...
리소스 속성창을 확인합니다.
[그림] 미러디스크 스플릿 브레인 확인미러관리 창을 확인합니다.
Warning 1)양노드의 MirrorRole은 Source, MirrorState은 MIRROR_PAUSED 상태가 됩니다.
2) 미러디스크의 TimeAquiredSourceRole을 확인합니다. (TimeAquiredSourceRole은 시스템의 시간이므로 최신 데이터의 유무를 결정할 수 있는 절대값은 아닙니다)
3) 스플릿 브레인이 발생했을 때 발생하는 로그가 출력됩니다. (윈도우즈 이벤트 오류: An invalid attempt to establish a mirror occurred. Both systems were found to be Source. Local Volume: F Remote system: 200.200.124.49 Remote Volume: F The mirror has been paused, or left in its current non-mirroring state. Use the DataKeeper User Inteface to resolve this Split Brain condition.)
4) 미러관리 창에서 미러 상태가 'SPLIT' 상태 입니다.
- 미러디스크를 선택하고 오른쪽 버튼을 클릭하여 '스플릿 브레인 해결'을 클릭합니다.
[그림] 소스 롤 노드 선택 - 스플릿브레인에 대한 설명창이 출력됩니다.
[그림] 소스 롤 노드 확인 - 소스노드를 선택합니다.
- 선택한 소스노드에 대해 다시 한번 확인합니다.
- 스플릿해결 중인 화면입니다.
- 스플릿해결 완료 화면입니다.
선택한 노드가 소스노드가 되고 미러디스크의 상태는 MIRRORING 상태로 바뀌게 됩니다.
[그림] 스플릿 브레인 해결Warning 노드 B 의 변경된 정보는 모두 덮어써지게 됩니다
공유 디스크 환경 구성의 예
외장 스토리지 장애
외장 디스크의 연결 경로 및 디스크에 장애가 발생하면 해당 디스크의 Read/Write가 불가능하므로 MCCS는 장애를 표시하고 페일오버를 진행합니다.
...
- 외장 스토리지 장애는 MCCS 로그, 시스템 로그에서 장애 내역을 확인할 수 있습니다.
외장 스토리지 자체에 문제가 생기면 스토리지를 복구 할 때까지 서버 운영이 중단 됩니다. 따라서 빠른 시간 내에 스토리지를 복구하거나 임시 스토리지(백업 스토리지)로 교체해서 사용해야 합니다.
외장 스토리지와 관련된 장애는 해당 스토리지 업체에 문의하시기 바랍니다.
장애가 발생한 서버의 외장 스토리지 연결 및 디스크가 정상화 되면 MCCS 커널 드라이버가 복구된 환경을 다시 인식할 수 있도록 MCCS의 서버를 재부팅 해야 합니다.
또한 해당 스토리지 벤더를 통해 스토리지의 이중화 대책을 마련해야 합니다.
NetBIOS 에이전트 환경 구성의 예
Direct-Hosted SMB 사용
Windows 2000 이상에서 지원하는 SMB는 Direct-Hosted 방식을 지원합니다. 이 기능은 NetBIOS 인터페이스를 사용하지 않고 직접 파일공유 서비스를 지원합니다.
...
즉, NetBIOS 에이전트를 사용하면서 DNS 서버와 연동할 경우에는 클라이언트가 파일서버에 대부분 Direct-Hosted SMB 방식으로 연결됩니다.
관련 캐시 플러시
에이전트 동작 확인시, 관련 캐시를 플러시합니다.
...
ARP 캐시 플러시 방법
Code Block |
---|
arp -d |
방화벽 설정해제
NetBIOS 통신관련 해제대상 포트번호는 다음과 같습니다.
...
DNS 서버 업데이트, WINS 서버 업데이트에 관련된 포트번호는 다음과 같습니다.
Panel |
---|
TCP/UDP 42, 53 |
워크스테이션(Workstation) 서비스 중단시 고려사항
Windows 서비스에서 Workstation 서비스는 SMB 프로토콜을 사용하여 원격 서버에 대한 클라이언트 네트워크 연결을 만들고 유지합니다.
...
서비스 이름 |
---|
Alerter Service |
Browser Service |
Messenger Service |
Net Logon Service |
RPC Locator Service |
서버(Server) 서비스 중단시 고려사항
Windows 서비스에서 Server 서비스는 이 컴퓨터에 대해 파일, 인쇄 및 명명된 파이프를 네트워크를 통해 공유할 수 있도록 지원합니다.
...
Server 서비스를 중지 할때는 주의해야 합니다.
서비스 이름 |
---|
Browser Service |
파일공유 가 안 될 경우
가상이름이 아닌 노드의 원래 NetBIOS 컴퓨터 이름으로 파일공유가 되는지 먼저 확인합니다.
...
페일오버된 상황에서 클라이언트가 갖고 있는 가상이름의 IP주소가 페일오버 전 노드의 주소를 갖는 경우가 발생하면 클라이언트의 NetBIOS 케시가 플러시 될때까지 수 분 동안 통신이 안될 수 도 있습니다. WINS 서버를 사용하는 경우 이런 상황이 발생 가능합니다 . 따라서 이런 경우 클라이언트 프로그램은 이중화 동작이 발생하는 환경 임을 인지 할 수 있어야 합니다.
SCSI-Lock 에이전트 환경 구성의 예
SCSI3-PR 을 사용하는 볼륨매니저와 연동할 때
볼륨 매니져(예: 시멘택의 SFW 같이 SCSI3-PR 예약 기능을 사용하는 제품)는 SCSI Lock 에이전트와 같이 사용할 수 없습니다.
SCSI3-PR을 지원하는지 확인할 때
디스크가 SCSI3-PR 기능을 지원하는지 scsicmd.cmd 명령으로 PR 타입을 확인합니다.
sg_scan.exe 또는 sg_persist.exe 패스를 못 찾을 때
해당명령이 %MCCS_HOME%/bin 에 존재하는지 확인합니다.
공유 디스크 에이전트와 연동할 때
공유디스크 에이전트와 SCSI Lock 에이전트를 연동할 경우, 공유디스크 에이전트 동작이 정상임을 확인 한 후에 SCSI Lock 에이전트를 등록합니다.
이때 SCSI Lock 에이전트의 디스크 사용목적은 H/W적인 LOCK 장치로 사용하기 위함이지 디스크의 내용을 사용하지는 않습니다. 따라서 디스크의 크기는 작아도 되며 내용은 보호하지 않습니다.
등록 키 충돌 오류가 날 때
scsicmd.cmd -c 옵션 혹은 scsicmd.cmd -cf 옵션 으로 예약키 또는 등록키를 모두 제거한 후 다시 설정해야합니다. 그리고 리소스 등록전에는 등록된 키는 없는지 확인하고 있으면 제거후 등록해야 합니다.
참고로 현재 키는 노드의 MAC 주소를 사용하여 자동으로 설정합니다. 여러개의 네트웍 어탭터중에서 첫 번째 어탭터의 MAC 주소를 사용합니다. 이 키는 설정파일에 자동 기록합니다. 설정파일에 키가 존재할 경우에는 키를 새로 만들지 않습니다.
하나의 디스크에 여러 레터가 존재할 경우 한개의 레터에 예약 시 나머지에 레터에 접근을 못할 때
SCSI Lock 대상 디스크는 기본 디스크와 단일 레터를 지원합니다. 동적 디스크나 다중 볼륨(하나의 LUN에 여러 파티션을 구성하는 경우)을 사용하는 디스크는 사용하지 마십시요.
에이전트 등록 후 DUID가 해결되지 못한 상태로 유지될 때
레터를 정의하고 활성화를 요청해야 main.json에 해당 레터에 연결된 DUID 정보가 기록됩니다.
에이전트 삭제할 때
SCSI Lock 에이전트가 삭제될때 예약을 해제합니다. 따라서 예약대상 공유디스크가 상대 노드에서 사용될 가능성을 염두에 두고 삭제를 해야 합니다. 즉 삭제할 경우에는 상대 노드를 다운시킨 후 작업하십시요.
서포트 파일을 수집하는 방법
MCCS 에 문제가 생겼을 경우 로그와 환경 정보의 수집을 위해서 서포트 파일을 수집할 수 있습니다.
서포트 파일을 수집하는 방법은 다음과 같이 2가지가 있습니다.
콘솔을 통해서 수집하는 방법
- MCCS의 메뉴바의 '파일'에서 서포트 파일을 수집할 수 있습니다.
[그림] 메뉴바에서 서포트 파일 수집 - MCCS의 툴바 아이콘을 클릭하면 서포트 파일을 수집할 수 있습니다.
[그림] 툴바에서 서포트 파일 수집 - 서포트 파일을 수집할 노드의 선택과 이전에 받은 서포트파일을 다시 받을 수 있습니다.
[그림] 서포트 파일 노드 선택 및 이전 서포트 파일 선택 여부 확인 버튼을 누르면 서포트 파일을 수집합니다.
[그림] 서포트 파일 수집 중 화면Info 로그파일의 용량과 네트워크의 상태에 따라서 몇 분이 걸릴수도 있습니다.
- 아래와 같이 다운로드 창이 열리게 되고 다운받으시면 됩니다.
[그림] 서포트 파일 수집 확인
스크립트 파일을 실행해서 수집하는 방법
스크립트 파일의 위치는 아래와 같습니다.
Code Block |
---|
%MCCS_HOME%\bin\Support\support.cmd |
...