[MIP-230] Networkcard 장애로 Failover 되는도중에 Autorestart 옵션이 적용되어, 리소스가 양노드에서 실행됨
Subject
Networkcard 장애로 Failover 되는도중에 Autorestart 옵션이 적용되어, 리소스가 양노드에서 실행됨
APPLIES TO:
1. OS : Window server 2008 R2 STD
2. 제품 : MCCS(3.3.2, r96731), DK(7.3.1)
3. App : MSSQL 2008 , 프로세스 4개(iComCVIF, icomCover,iComLMS,iComAfter)
SYMPTOMS
CAUSE
<요약>
12/12/10-02:11:20,851 | kCardAgent | WindowsNicAgent: 101 | WARN | 30048:NIC의 상태를 파악 할 수 없습니다. 오류 번호: -55, 오류 메시지: The specified network resource or device is no longer available.
12/12/10-02:11:20,960 | kCardAgent | te.StateMachine: 384 | ERROR | 40077:리소스 상태 변경 [NetworkCard - 장애]
12/12/10-02:11:20,960 | kCardAgent | cy.GroupManager:1162 | INFO | 20105:[FAXSERVER1]노드에서 [SQL_RG]그룹의 상태 변경 (ONLINE -> PARTIAL_FAULTED)
12/12/10-02:11:21,194 | omLMSAgent | indowsProcAgent: 135 | INFO | 20030:리소스 오프라인 시도 [iComLMS]
12/12/10-02:11:21,194 | omLMSAgent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [iComLMS - 오프라인]
12/12/10-02:11:21,506 | AfterAgent | indowsProcAgent: 135 | INFO | 20030:리소스 오프라인 시도 [iComAfter]
12/12/10-02:11:21,506 | AfterAgent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [iComAfter - 오프라인]
12/12/10-02:11:21,834 | CoverAgent | indowsProcAgent: 135 | INFO | 20030:리소스 오프라인 시도 [iComCover]
12/12/10-02:11:21,834 | CoverAgent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [iComCover - 오프라인]
12/12/10-02:11:22,162 | mCVIFAgent | indowsProcAgent: 135 | INFO | 20030:리소스 오프라인 시도 [iComCVIF]
12/12/10-02:11:22,162 | mCVIFAgent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [iComCVIF - 오프라인]
12/12/10-02:11:22,489 | WWWAgent | owsServiceAgent: 55 | INFO | 20030:리소스 오프라인 시도 [WWW]
12/12/10-02:11:25,500 | WWWAgent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [WWW - 오프라인]
12/12/10-02:11:25,765 | ERVERAgent | owsServiceAgent: 55 | INFO | 20030:리소스 오프라인 시도 [MSSQLSERVER]
12/12/10-02:11:28,776 | ERVERAgent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [MSSQLSERVER - 오프라인]
12/12/10-02:11:29,088 | ror_EAgent | MirrorDiskAgent: 250 | INFO | 20030:리소스 오프라인 시도 [Mirror_E]
12/12/10-02:11:29,509 | ror_EAgent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [Mirror_E - 오프라인]
12/12/10-02:11:29,806 | .4.67Agent | .WindowsIpAgent: 132 | INFO | 20030:리소스 오프라인 시도 [10.64.4.67]
12/12/10-02:11:29,806 | .4.67Agent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [10.64.4.67 - 오프라인]
12/12/10-02:11:29,821 | .4.67Agent | cy.GroupManager:1162 | INFO | 20105:[FAXSERVER1]노드에서 [SQL_RG]그룹의 상태 변경 (PARTIAL_FAULTED -> FAULTED)
12/12/10-02:11:30,133 | oup_SQL_RG | eFaultProcessor: 96 | INFO | 20094:그룹 오프라인 시도 [FAXSERVER1 노드 : SQL_RG 그룹]
12/12/10-02:11:30,133 | oup_SQL_RG | eFaultProcessor: 232 | INFO | 10078:[FAXSERVER2]노드로 [SQL_RG]그룹을 페일오버 시킵니다
// 02:11분 20초경, Networkcard 장애로 1번서버에서 Offline 시킴
12/12/10-02:11:30,133 | oup_SQL_RG | cy.GroupManager: 681 | INFO | 20116:그룹 SQL_RG에 대한 RESOURCE_FAULTED 명령이 완료되었습니다.
12/12/10-02:11:37,632 | kCardAgent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [NetworkCard - 온라인]
12/12/10-02:11:37,647 | kCardAgent | cy.GroupManager:1162 | INFO | 20105:[FAXSERVER1]노드에서 [SQL_RG]그룹의 상태 변경 (FAULTED -> OFFLINE)
// 02:11:30초경 resourcce faulted 되고,7초후 Networkcard가 Online되면서, 1번서버
그룹 Offline됨
12/12/10-02:11:37,741 | oup_SQL_RG | tGroupProcessor: 88 | INFO | 20102:[SQL_RG]그룹 [FAXSERVER1]노드에서 AutoRestart 시작
12/12/10-02:11:37,741 | oup_SQL_RG | cy.GroupManager: 760 | INFO | 20104:SQL_RG에서 FAXSERVER1를 시작합니다.
12/12/10-02:11:37,741 | oup_SQL_RG | cy.GroupManager: 681 | INFO | 20116:그룹 SQL_RG에 대한 RESTART 명령이 완료되었습니다.
12/12/10-02:11:37,850 | oup_SQL_RG | eGroupProcessor: 209 | INFO | 20095:그룹 온라인 시도 [FAXSERVER1 노드 : SQL_RG 그룹]
12/12/10-02:11:37,975 | .4.67Agent | .WindowsIpAgent: 48 | INFO | 20031:리소스 온라인 시도 [10.64.4.67]
// 그룹 offline됨과 동시에, Autorestart 옵션적용되어, 다시 1번서버로 온라인 시도함
12/12/10-02:11:40,408 | .4.67Agent | .WindowsIpAgent: 312 | INFO | 20037:ARP를 갱신하였습니다 RefreshArp 10.64.4.67 team_public
12/12/10-02:11:40,408 | .4.67Agent | te.StateMachine: 386 | INFO | 20112:리소스 상태 변경 [10.64.4.67 - 온라인]
12/12/10-02:11:40,408 | .4.67Agent | cy.GroupManager:1162 | INFO | 20105:[FAXSERVER1]노드에서 [SQL_RG]그룹의 상태 변경 (OFFLINE -> PARTIAL)
12/12/10-02:11:40,486 | ueueWorker | .engine.db.Data: 289 | INFO | 20041:[FAXSERVER2]노드의 리소스 상태 변경 [10.64.4.67 - ONLINE]
12/12/10-02:11:40,736 | ror_EAgent | t.AbstractAgent: 697 | WARN | 30013:SQL_RG 그룹은 parallel 이 아님. 다른 노드에서 동작중인 리소스가 존재함
//02:11 40초경, 1번서버로 vip 온라인되고, Faxserver2(즉 2번서버)에서도 vip가 동시에 온라인됨, 병렬그룹 아니라는 메세지 발생
12/12/10-02:11:41,906 | ntListener | t.mirror.Volume: 521 | INFO | 20028:E: 미러 상태 변경(MIRRORING => NO_MIRROR)
12/12/10-02:11:42,015 | ntListener | t.mirror.Volume: 159 | INFO | 20029:E: 미러 롤 변경(Source => None)
12/12/10-02:11:44,605 | ueueWorker | .engine.db.Data: 289 | INFO | 20041:[FAXSERVER2]노드의 리소스 상태 변경 [Mirror_E - ONLINE]
12/12/10-02:11:45,915 | ntListener | t.mirror.Volume: 159 | INFO | 20029:E: 미러 롤 변경(None => Target)
12/12/10-02:11:49,909 | ntListener | t.mirror.Volume: 521 | INFO | 20028:E: 미러 상태 변경(NO_MIRROR => MIRROR_RESYNCING)
12/12/10-02:11:50,018 | ntListener | t.mirror.Volume: 521 | INFO | 20028:E: 미러 상태 변경(MIRROR_RESYNCING => MIRRORING)
12/12/10-02:11:50,018 | ntListener | t.mirror.Volume: 502 | INFO | 20027:E: 볼륨 상태. 미러 볼륨 페일오버 기능 활성화.
//2번서버에 mirror_E 까지 온라인됨
SOLUTION
Fixed MCCS 3.4