/
[MIP-182] mccs에서 등록된 process fail 후 failover 를 하지 못함

[MIP-182] mccs에서 등록된 process fail 후 failover 를 하지 못함

Subject
mccs에서 등록된 process fail 후 failover 를 하지 못함

APPLIES TO:
window 2008 ent x86, 동일 프로그램 14개가 다른 파라메터값으로 돌고 있음 (기본응용)


SYMPTOMS
mccs 3.6.0 에서 restart limit 에 도달 했지만 타겟 노드로 failover 하지 못함
원인에 대한 로그가 발견되지 않음
exception 로그에 해당 날짜의 로그가 없음 (08/19)

##로그내역
13/08/13-19:37 리소스 8번 재시작 실패 로그 확인 (lc-prttra01)
... 로그 없음

13/08/16-09:12 사용자에 의해 그룹 정리 후 그룹 시작 (lc-prttra02)

의문점은 다음과 같습니다.
1. 같은 프로그램이 restart limit 값을 공유함 ex) inzirecog01 과 inzirecog02 값이 순차적으로 fail 시 restart 값은 2로 증가됨

2. 8월13일 프로세스 fail 이 후 failover 를 하지 못한 원인 분석 요청


CAUSE
MCCS의 GroupManager 와 MCCS상태 값으로 인해 타이밍상 다음 상태값을 서로 기다릴수 있는 상태가 되어 무한루프에 빠질수가 있다.


SOLUTION
RESOURCE_FAULTED가 발생하여 failover중에는 그룹에 속한 agent 마다 FLUSH 명령을 날려서 이후에 cmd는 무시하도록 한다. 

Related content

[MIP-567] 운영서버 재 부팅시 Failover 실패
[MIP-567] 운영서버 재 부팅시 Failover 실패
More like this
[MIP-613] 페일오버 중 장애 리소스 재 시작으로 인한 페일오버 실패
[MIP-613] 페일오버 중 장애 리소스 재 시작으로 인한 페일오버 실패
More like this
[MIP-164] MCCS 노드간 상태확인 불가
[MIP-164] MCCS 노드간 상태확인 불가
More like this
[MIP-374] 기본응용에서 절대경로 외, 같은 이름의 process를 실행했을 때 MCCSAgent가 종료되는 문제
[MIP-374] 기본응용에서 절대경로 외, 같은 이름의 process를 실행했을 때 MCCSAgent가 종료되는 문제
More like this
[MIP-300] System Failover 이후 PreActive노드에서 MCCS Agent 서비스 자동시작 실패
[MIP-300] System Failover 이후 PreActive노드에서 MCCS Agent 서비스 자동시작 실패
More like this
[MIP-305] standby 노드에서 일부 Resource가 Online된것으로 확인되어 Failover시 모든 Resource가 Online 되지 않음
[MIP-305] standby 노드에서 일부 Resource가 Online된것으로 확인되어 Failover시 모든 Resource가 Online 되지 않음
More like this