...
APPLIES TO:
3.6.2
SYMPTOMS
1. TS1BIO01 노드에서 기본응용으로 등록된 서열지시 프로그램이 중복으로 실행되었다고함(MCCS로그상 PID를 검색하지 못하여 재시작한것으로 추정됨)
2. TS1BIO01 노드의 시스템 장애(Shutdown) 상태에서 TS1BIO02 노드로 그룹이 페일오버 되었고, 서열지시가 장애로 감지 되었으나, Restart가 있음에도 불구하고 바로 장애로 감지함
3. 그룹에 장애 상태가 남아 있음에도 사용자에 의한 그룹 시작 명령이 동작 함
4. 엔지니어 지원시, 각 서버의 MCCS 콘솔에서 자기 자신이 서로 Online 인 상태라고 인지하여, 양 노드의 MCCS Agent 재시작 후 정상 상태로 되었다고 함
5. 엔지니어 지원으로 서열지시를 기본응용에서 복합응용으로 리소스 변경 ( 정상 동작 하는 것을 확인 후, 지원 마무리 함)
CAUSE
SOLUTION
# 고객의 응용(기본응용) 프로세스가 살아 있음에도 죽었다고 인식 restartLimit에 의해 두개의 프로세스가 작동됨(고객확인)\\ >>>> PID 가 존재 않았다고 시스템 출력, 고객사 응용에 스스로 재시작하는 기능이나, PID를 스스로 변경할수 있는 기능이 있는지 확인이 필요.
# 상대방 노드가 폴트상태이고, 로컬 노드의 그룹이 온라인인 상황에서 리소스의 폴트시에, 콘솔에서 그룹온라인 하느것이 가능하다.\\ >>>> MCCSKEY-3040 에서 처리.
# 위상황에서 리소스의 폴트시 restartLimit이 작동하지 않고 바로 장애로 판단해버린 현상.\\ >>>> 소스를 수정하여 GroupActionState를 Starting 상태로 유지하면 발생함. restart는 GroupActionState가 Watching상태일때만 동작, 하지만 로그상 그룹 온라인 완료후 약 40초간 Starting상태에 머물렀을 가능성은 없음.
# 최종적으로맨텍 SE가 원격 확인시 양쪽 노드에서 자기 노드를 온라인노드로 표시 하고 있었음(읜존성 의존성 페이지 확인)\\ >>>> 재현안됨.