Subject
mccs에서 등록된 process fail 후 failover 를 하지 못함
APPLIES TO:
window 2008 ent x86, 동일 프로그램 14개가 다른 파라메터값으로 돌고 있음 (기본응용)
SYMPTOMS
mccs 3.6.0 에서 restart limit 에 도달 했지만 타겟 노드로 failover 하지 못함
원인에 대한 로그가 발견되지 않음
exception 로그에 해당 날짜의 로그가 없음 (08/19)
##로그내역
13/08/13-19:37 리소스 8번 재시작 실패 로그 확인 (lc-prttra01)
... 로그 없음
13/08/16-09:12 사용자에 의해 그룹 정리 후 그룹 시작 (lc-prttra02)
의문점은 다음과 같습니다.
1. 같은 프로그램이 restart limit 값을 공유함 ex) inzirecog01 과 inzirecog02 값이 순차적으로 fail 시 restart 값은 2로 증가됨
2. 8월13일 프로세스 fail 이 후 failover 를 하지 못한 원인 분석 요청
CAUSE
MCCS의 GroupManager 와 MCCS상태 값으로 인해 타이밍상 다음 상태값을 서로 기다릴수 있는 상태가 되어 무한루프에 빠질수가 있다.
SOLUTION
RESOURCE_FAULTED가 발생하여 failover중에는 그룹에 속한 agent 마다 FLUSH 명령을 날려서 이후에 cmd는 무시하도록 한다.