9. 도서관/__사. Network

cpu error

행복 금융 2008. 11. 16.
 

SunOS fw 5.7 Generic_106541-15 sun4u sparc SUNW,Ultra-60
32-bit sparc applications 장비입니다.
요즘에 들어서 자주 다운이 발생합니다.


Jun 7 08:51:33 fw unix: WARNING: [AFT1] Uncorrectable Memory Error on CPU2 Data
access at TL=0, errID 0x0000002e.02559fe3
0
Jun 7 08:51:33 fw AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x1003
4f1c
Jun 7 08:51:33 fw UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0000 UDBL.ESYND 0x
00
Jun 7 08:51:33 fw UDBH Syndrome 0x3 Memory Module U1001 U1002 U1003 U1004
Jun 7 08:51:33 fw unix: WARNING: [AFT1] errID 0x0000002e.02559fe3 Syndrome 0x3
indicates that this may not be a memory module problem
Jun 7 08:51:33 fw unix: [AFT2] errID 0x0000002e.02559fe3 PA=0x00000000.b7d4c000
Jun 7 08:51:33 fw E$tag 0x00000000.0a4016fa E$State: Shared E$parity 0x05
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x00): 0x00010008.00000001 *Bad* PSYND=0
xff00
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x08): 0x70c66b30.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x10): 0x70c66ba0.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x18): 0x00000000.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x20): 0x70c66cf0.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x28): 0x70c66d60.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x30): 0x00000000.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x38): 0x70c66e40.00000000
Jun 7 08:51:33 fw unix: WARNING: [AFT1] CP event on CPU0 (caused Data access er
ror on CPU2), errID 0x0000002e.02559fe3
Jun 7 08:51:33 fw AFSR 0x00000000.01004000<CP> AFAR 0x00000000.b7d4c000
Jun 7 08:51:33 fw AFSR.PSYND 0x4000(Score 95) AFSR.ETS 0x00
Jun 7 08:51:33 fw UDBH 0x00dd UDBH.ESYND 0xdd UDBL 0x0033 UDBL.ESYND 0x33
Jun 7 08:51:33 fw unix: [AFT2] errID 0x0000002e.02559fe3 PA=0x00000000.b7d4c000
Jun 7 08:51:33 fw E$tag 0x00000000.1b4016fa E$State: Owner E$parity 0x0d
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x00): 0x00010008.00000001 *Bad* PSYND=0
x4000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x08): 0x70c66b30.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x10): 0x70c66ba0.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x18): 0x00000000.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x20): 0x70c66cf0.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x28): 0x70c66d60.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x30): 0x00000000.00000000
Jun 7 08:51:33 fw unix: [AFT2] E$Data (0x38): 0x70c66e40.00000000
Jun 7 08:51:33 fw unix: panic[cpu2]/thread=401a9e60:
Jun 7 08:51:33 fw unix: [AFT1] errID 0x0000002e.02559fe3 UE Error(s)
Jun 7 08:51:33 fw See previous message(s) for details
Jun 7 08:51:33 fw unix:
Jun 7 08:51:34 fw unix: syncing file systems...
Jun 7 08:51:34 fw unix: 33
Jun 7 08:51:56 fw unix: 11
Jun 7 08:52:13 fw unix: panic[cpu2]/thread=40047e60:
Jun 7 08:52:13 fw unix: panic sync timeout
Jun 7 08:52:13 fw unix:
Jun 7 08:52:14 fw unix: dumping to /dev/dsk/c0t0d0s1, offset 429588480
Jun 7 08:53:31 fw unix:
Jun 7 08:53:31 fw unix: dump succeeded


----------- 답 변 -------------------------


좀 늦은 감이 있지만... 위의 에러를 판별하는 법입니다.
우선 ecache와 관련한 parity 불일치 에러는 CP, WP, EDP event 등 몇가지 종류가 있습니다. 위의 경우는 CP (Copyout) event 군요. CP event는 멀티 프로세서를 가진 시스템에서 UltraSPARC II CPU들간의 ecache를 일치 해주는 과정에서 나는 패리티 불일치 오류 입니다. 왜 ecache를 일치 시킬 필요가 있느냐 하면 프로세스 혹은 쓰레드간의 context-switch시에 cache hit rate를 높이기 위함이죠. 간단히 말해서 CPU들간의 ecache를 같게 유지 시키는 과정이 CP입니다.
위의 에러메세지 중 중요한 것은 AFT1 태그 입니다. 두번의 중요한 AFT1 메세지가 나왔는데, 첫번째 것은 CPU2에 UE (Uncorrectable Error)가 나왔고 두번째 것은 CPU0에 CPevent가 발생 해서 CPU2에 Data access error를 야기 시켰다는 것 입니다.
UE는 parity 체크시 2비트 이상의 에러가 났기 때문에 나는 것으로 교정 불가능 하기 때문에 OS는 시스템을 패닉 시킵니다. 1비트만 에러가 났다면 CE(Correctable Error)로 표시만 되고 교정 후 정상 작동 했겠죠. 이 때 중요한 것은, 실제로 패닉을 일으킨 CPU는 CPU2지만 그 원인 제공은 CPU0 라는 것이죠. 따라서 파트를 교체 하려면 CPU0를 교체 해야 합니다.
위에 설명한 AFT1 태그는 그 밑의 다른 값들 (레지스터들) 즉 PSYND, AFSR, AFAR, UDBH(L) 등을 근거로 해서 OS가 판단하는 것 입니다. 만약 AFT1 태그가 없어도 다른 정보들로도 판단 가능합니다.
위의 다른 값들에 대한 자세한 사항은 UltraSPARC II User's Manual에 잘 나와있고요. 언제 기회가 되면 다시 한번 설명을 하지요.


[펌 - http://sunsolve.net/m_view.php?ps_db=qna&ps_boid=100&ps_page=6&ps_sele=&ps_ques=&ps_line=asc&ps_choi=&ps_divi=]


댓글

💲 추천 글