[MSP-150] 시스템 장애시, VxvM 리소스 온라인 실패

Subject
시스템 장애시, VxvM 리소스 온라인 실패

APPLIES TO:
MCCS 4.0
Windows 2012 R2
VxVM version : 6.1.00000.445


SYMPTOMS
시스템 장애시, VxvM 리소스 온라인 실패


CAUSE
test_RG(networkcard, vip, VxVM 디스크 그룹 2개(dg01, dg02))
A노드 시스템 shutdown 시, S노드로 그룹 페일오버를 진행
S노드에서 dg01 온라인 시도시, 아래와 같은 메시지 출력하면서, failover실패 (실제 dg01은 Online까지는 되어있음)
2014/12/356-04:55:48.959 | t.AbstractAgent:1287 | INFO | 20031:리소스 ONLINE 시도 [dg01]
2014/12/356-04:55:55.887 | d.RuntimeExecute:314 | ERROR | [vxdg -g dg01 -C -s -o timeout=300 import :null]
2014/12/356-04:55:55.887 | g.agent.VxDGAgent:71 | ERROR | 1140001:디스크그룹(dg01) 임포트 실패, error()
2014/12/356-04:55:56.94 | ate.StateMachine:412 | ERROR | 20041:[win2012R2-02]노드의 리소스 [dg01] 상태 변경. 그룹 [test_RG]. 타입 [VxDG]. 상태[FAULTED].
2014/12/356-04:55:56.94 | cy.GroupManager:1530 | INFO | 20105:[win2012R2-02]노드에서 [test_RG]그룹의 상태 변경. [PARTIAL] -> [PARTIAL_FAULTED]
2014/12/356-04:55:56.203 | icy.GroupManager:822 | ERROR | 10133:[test_RG] 그룹 명령 처리 완료. 명령 [ONLINE]. 컨텍스트 [TAKEOVER]. 결과 [ERROR].
2014/12/356-04:55:56.203 | icy.GroupManager:816 | INFO | 10132:[test_RG] 그룹 명령 처리. 명령 [FLUSH]. 컨텍스트 [SYSTEM].
2014/12/356-04:55:56.203 | or.FlushProcessor:48 | INFO | 20083:[test_RG] 정리 명령
2014/12/356-04:55:56.203 | icy.GroupManager:823 | INFO | 10133:[test_RG] 그룹 명령 처리 완료. 명령 [FLUSH]. 컨텍스트 [SYSTEM]. 결과 [SUCCESS].
2014/12/356-04:55:56.203 | icy.GroupManager:816 | INFO | 10132:[test_RG] 그룹 명령 처리. 명령 [RESOURCE_FAULTED]. 컨텍스트 [SYSTEM].
2014/12/356-04:55:56.203 | ceFaultProcessor:259 | WARN | 30086:[test_RG]그룹을 페일오버 할 수 있는 노드가 없습니다
추가 테스트시, 문제점 발생
dg02를 위의 로그에서 출력한 명령을 수동으로 입력시, import 성공 메시지 출력
C:\Users\Administrator>vxdg -g dg02 -C -s -o timeout=300 import
Successfully imported dynamic disk group
Name of the disk group is dg02
MCCS에서는 자동으로 probe하여 Online 하면서 계속 유지 될 것으로 예상했으나, 아래와 같은 메시지 출력하면서 dg02를 병렬규칙 위반으로 Offline 시도함
참고로 win2012R2-01 노드는 현재까지도 shutdown 상태임.
2014/12/356-05:08:03.773 | ate.StateMachine:413 | INFO | 20041:[win2012R2-02]노드의 리소스 [dg01] 상태 변경. 그룹 [test_RG]. 타입 [VxDG]. 상태[ONLINE].
2014/12/356-05:08:03.773 | cy.GroupManager:1530 | INFO | 20105:[win2012R2-02]노드에서 [test_RG]그룹의 상태 변경. [OFFLINE_FAULTED] -> [PARTIAL]
2014/12/356-05:08:57.816 | ate.StateMachine:413 | INFO | 20041:[win2012R2-02]노드의 리소스 [dg02] 상태 변경. 그룹 [test_RG]. 타입 [VxDG]. 상태[ONLINE].
2014/12/356-05:08:57.816 | cy.GroupManager:1530 | INFO | 20105:[win2012R2-02]노드에서 [test_RG]그룹의 상태 변경. [PARTIAL] -> [ONLINE]
2014/12/356-05:08:57.919 | nt.AbstractAgent:917 | WARN | 30015:dg02 리소스는 온라인 상태일 수 없음. 액티브 노드는 win2012R2-01임
2014/12/356-05:08:58.135 | t.AbstractAgent:1274 | INFO | 20030:리소스 오프라인 시도 [dg02]
2014/12/356-05:08:59.316 | ate.StateMachine:413 | INFO | 20041:[win2012R2-02]노드의 리소스 [dg02] 상태 변경. 그룹 [test_RG]. 타입 [VxDG]. 상태[OFFLINE].
2014/12/356-05:08:59.316 | cy.GroupManager:1530 | INFO | 20105:[win2012R2-02]노드에서 [test_RG]그룹의 상태 변경. [ONLINE] -> [PARTIAL]
번외 테스트 진행
A 노드 그룹 Online 및 Offline 수행
A 노드 shutdown
S 노드에서 그룹 Online 시 특이사항 없이 진행됨.



SOLUTION
4.1_alpha_201501161354 버젼으로 확인시 정상 동작 확인
시스템 장애시, 정상 vxvm 리소스 온라인 확인
onlinecount 는 그룹 온라인 시키려는 노드에서, reboot 된 서버(기존 active서버)가 0으로 표시됨

Fixed 4.1