...
This is the case of system being rebooting or shut down because of conflicts of each device (NIC, Raid Controller), kernel driver problem of other application.
Active Server Failure
- 서버의 정상 혹은 비정상 종료에 따른 MCCS의 역할에는 차이점이 없습니다. MCCS는 운영 서버에서 장애가 발생하면 대기 서버로 페일오버를 진행합니다.
화면의 오른쪽에 있는 노드 관리에서 해당 서버를 선택하면 '리소스 상태' 및 '리소스 의존성' 화면을 통하여 장애를 확인할 수 있습니다.- Normal Termination of a system
This is a case where user selected 'system shutdown' in operating systems. - Abnormal Termination of a system
This is a case where system is terminated or rebooted due to an unexpected situation or blue screen.
[ Figure] Failure in Active Server - Normal Termination of a system
- Since data cannot be replicated due to the server failure, will be shown in the mirror disk resource.
- Server operators check on the failure and put the server back to normal.
- After checking on the mirror role of two servers when server with the failure is rebooted, switch the server with the failure as replication target and proceed partial resync.
...
- MonitorInterval
Monitors the resource with interval set value. (Default Value=10sec) - MonitorTimeout
If there is no reply as much as the set value, it is considered as a failure. (Default Value=10sec) - RestartLimit
It will restart the application resource as the set value. (Default Value=0) - OnlieTrustTime
It re-sets the time of number of resource restarting number.It is the time to reset the frequency of the resource to restart. (Default Value=600sec)
Attributes above are the set value of the registered being added the resource, and users can check or change the values through Resource Attribute view of MCCS console.
[Figure] Resource attribute value Edit
- MCCS periodically monitors the resources referring 'MonitorInterval'.
- If there is no response as the time set in 'MonitorTimeout', it is considered as a failure.
- If there are no response after sending the command as the number set in 'RestartLimit', MCCS will failover the group which resource belongs to.
- If the resource stays in normal state within the time limit set by 'OnlineTrustTime'. MCCS will initialize the attribute value of 'RestartLimit'. This is to ensure restart number when failure occurs in a resource.
- If there is a failover due to a failure in the resource, server operator checks on the problem and put it back to normal.
- 장애가 발생한 부분은 MCCS 웹 콘솔에서 확인할 수 있으며, 장애가 발생한 부분을 사용자가 확인한 후에 장애 표시를 제거해 주어야 다시 페일오버 기능이 활성화됩니다.
자동으로 장애 표시를 제거하고자 할 경우에는 그룹 속성의 AutoFaultClearTime에 0보다 큰 값을 설정하면 됩니다. - After checking on the mirror role of two servers when server with the failure is rebooted, switch the server with the failure as replication target and proceed partial resync.
[Figure] Failure in Resource Clear
...
Network failure happens when network connection has problem, such as network switch or network interface card is broken or disconnection in network cable, or ping timeout of some network and so on.
Warning |
---|
※ Since MCCS license referenced to MAC address, license should be reissued if there is a change in network interface card. |
Service Network Failure
If failure occurs in service network of active server, the fault mark will be shown on the network interface card resource or IP address of the node in MCCS UI, and will failover to the standby server.
[Figure] Failure in Network Interface Card
- 서비스 네트워크 장애는 장애가 발생한 부분을 MCCS 웹 콘솔에서 확인할 수 있습니다.
- MCCS checks network cable disconnection of server where network failure occurred, and whether ping timeout occurs from network.
- If IP address resource is the cause of the failure, user should check on the network switch or network interface card.
When physical parts related to network is back to normal, select 'Clear Fault' from the MCCS console and remove fault mark in order to re-enable the failover function. - 자동으로 장애 표시를 제거하려면 그룹 속성의 AutoFaultClearTime에 0보다 큰 값을 설정하면 됩니다.
Heartbeat Network Fault
핫빗은 노드 상호간의 상태를 동기화하고 장애 상태를 결정하는 중요한 역할을 하기 때문에 반드시 이중화되어 있어야 합니다. 이중화된 이중화된 핫빗 네트워크 중에서 어느 하나라도 장애가 발생하면 장애 내용은 로그창에 표시 됩니다.하지만 MCCS 웹 콘솔 에는 아무런 변화가 나타나지 않습니다. 이것은 운영 서버와 대기 서버에는 아무런 문제가 없다는 것을 뜻합니다.At this point, when failure occurs in active server and needs to failover to the standby server, MCCS will use redundant normal heartbeat network to failover.
If all the redundant heartbeat is disconnected, MCCS will use the service network as heartbeat line.
[Figure] Failure in Heartbeat
...
- Availability of disk monitoring of MCCS are as below.
- Periodic read/write test on the disk.
- Determines whether drive letter exists in the disk.
- 디스크 장애 발생 요인은 다음과 같은 경우가 있을 수 있습니다. 위의 문제가 해결 된 후에 운영 체제는 변경된 디스크를 다시 인식합니다.이후 DataKeeper에서 동기화를 진행합니다.
- 디스크 컨트롤러 문제 하드웨어 자체의 문제는 해당 업체에서 해결해야 합니다.
- 물리적인 디스크 문제 하드웨어 자체의 문제는 해당 업체에서 해결해야 합니다.
- 미러 리소스에서 에서 동기화가 진행되지 않으면 미러디스크 리소스를 삭제한 후에 다시 생성해야 합니다. 단, 삭제시 리소스만 삭제가 아니라 생성된 미러까지 삭제 하고 다시 생성해야 합니다.
...
리소스 속성창을 확인합니다.
[Figure] Verify SplitBrain of MirrorDisk미러관리 창을 확인합니다.
[그림] 미러디스크 스플릿 브레인 확인Warning 1)양노드의 MirrorRole은 Source, MirrorState은 MIRROR_PAUSED 상태가 됩니다.
2) 미러디스크의 TimeAquiredSourceRole을 확인합니다. (TimeAquiredSourceRole은 시스템의 시간이므로 최신 데이터의 유무를 결정할 수 있는 절대값은 아닙니다)
3) 스플릿 브레인이 발생했을 때 발생하는 로그가 출력됩니다.
(윈도우즈 이벤트 오류: An invalid attempt to establish a mirror occurred. Both systems were found to be Source.
Local Volume: F Remote system: 200.200.124.49 Remote Volume: F The mirror has been paused, or left in its current non-mirroring state.
Use the DataKeeper User Inteface to resolve this Split Brain condition.)
4) 미러관리 창에서 미러 상태가 'SPLIT' 상태 입니다.- In the Group tab of the configuration tree, right click mirrordisk resource and you can select the source node when you place the cursor on the "Resolve Split Brain".
[그림] 스플릿 브레인 해결 선택 - 스플릿브레인에 대한 설명창이 출력됩니다.
[그림] 소스 노드 선택에 대한 내용 확인 - 소스노드를 선택합니다.
[그림] 소스 롤 노드 선택 - 선택한 소스노드에 대해 다시 한번 확인합니다.
[그림] 소스 노드 선택 다시 확인 - 스플릿해결 중인 화면입니다.
[그림] 스플릿 브레인 해결 화면 - 스플릿해결 완료 화면입니다.
[그림] 스플릿 브레인 해결 완료 화면 선택한 노드가 소스노드가 되고 미러디스크의 상태는 MIRRORING 상태로 되고 미러디스크의 상태는 MIRRORING 상태로 바뀌게 됩니다.
[그림] 스플릿 브레인 해결Warning 노드 B 의 변경된 정보는 모두 덮어써지게 됩니다
External Storage Failure
외장 디스크의 연결 경로 및 디스크에 장애가 발생하면 해당 디스크의 Read/Write가 불가능하므로 MCCS는 장애를 표시하고 페일오버를 진행합니다.
[Figure] Failure in Shared Disk
...
Your computer's file and print sharing lists are created. On the specified computer, there are no file or print shares available, "there are no entries in the list" message.
When the client isn't refreshed the mapping information between virtual name and real IP address after failover occurs, the client's NetBIOS cache is not communication for a few minutes until flushed.
This case will be happened when you use WINS server. Therefore the clients program is needed to be cluster aware in this case.
SCSI
...
Lock Failure
When interlock with volume manager using SCSI3-PR
...
When maintaining the state where DUID is not solved after registering agent
레터를 정의하고 활성화를 요청해야 main.json에 해당 레터에 연결된 DUID 정보가 기록됩니다.
When delete agent
SCSI Lock 에이전트가 삭제될때 예약을 해제합니다. 따라서 예약대상 공유디스크가 상대 노드에서 사용될 가능성을 염두에 두고 삭제를 해야 합니다. 즉 삭제할 경우에는 상대 노드를 다운시킨 후 작업하십시요.
Ways to collect support files
...
- MCCS 웹 콘솔에서 메뉴바의 '파일'을 클릭하여 서포트 파일을 수집할 수 있습니다.
[Figure] Support file Collect Icon 1 - Support files can be collected by clicking the toolbar shown in the figure below.
[Figure] Support File collect icon 2 - 서포트 파일을 수집할 노드의 선택과 이전에 받은 서포트파일을 다시 받을 수 있습니다.
[그림] 서포트 파일 노드 선택 및 이전 서포트 파일 선택 여부 Click 'OK' button and support file is collected.
[그림] 서포트 파일 수집 중 화면Info 로그파일의 용량과 네트워크의 상태에 따라서 몇 분이 걸릴수도 있습니다.
- 아래와 같이 다운로드 창이 열리게 되고 다운받으시면 됩니다.
[그림] 서포트 파일 수집 확인
...