HP-UX

질문 폭탄이라 죄송한데 마지막으로 1개만 더...^^;;;

 
이현우_1
임시 수집가

질문 폭탄이라 죄송한데 마지막으로 1개만 더...^^;;;

LPMC에러 입니다.

상당수의 워크스테이션도 나타나는것으로 보이고요.

얼마나 자주 발생하면 저번에 말씀들 해주셧던데로 CPU를 교체해야 할까요???

그리고 이에러의 정확한 분석은 HP센터에서 툴을 이용해서 분석해야하는것인가요? 언젠가 HPMC의 경우는 그렇게 해야한다고 들어서요.

그럼 좋은하루들되세요.





>------------ Event Monitoring Service Event Notification ------------<



Notification Time: Thu Aug 25 09:49:09 2005



kwstn176 sent Event Monitor notification information:



/system/events/cpu/lpmc/cache_errors is >= 1.

Its current value is SERIOUS(4).







Event data from monitor:



Event Time..........: Thu Aug 25 09:49:09 2005

Severity............: SERIOUS

Monitor.............: lpmc_em

Event #.............: 101

System..............: kwstn176



Summary:



Module at Hard Physical Address = 0xfffffffffffa0000 :





Description of Error:



Message in ll_msg (set: 15 msg: 101) did not exist in catalog.

Catalog type is MONITOR_INFO

Catalog version is A.01.00

Module name is lpmc_em

Message set number is 15

Message number is 101

Message size is 60



Probable Cause / Recommended Action:



Message in ll_msg (set: 16 msg: 101) did not exist in catalog.

Catalog type is MONITOR_INFO

Catalog version is A.01.00

Module name is lpmc_em

Message set number is 16

Message number is 101

Message size is 60



Additional Event Data:

System IP Address...: 140.0.0.176

Event Id............: 0x430d158500000000

Monitor Version.....: B.01.00

Event Class.........: LPMC

Client Configuration File...........:

/var/stm/config/tools/monitor/default_lpmc_em.clcfg

Client Configuration File Version...: A.01.00

Qualification criteria met.

Number of events..: 1

Associated OS error log entry id(s):

None

Additional System Data:

System Model Number.............: 9000/785

EMS Version.....................: A.03.20

STM Version.....................: A.24.00

Latest information on this event:

http://docs.hp.com/hpux/content/hardware/ems/lpmc_em.htm#101



v-v-v-v-v-v-v-v-v-v-v-v-v D E T A I L S v-v-v-v-v-v-v-v-v-v-v-v-v









Component Data:

HPA.....................: 0xfffffffffffa0000

Processor Number........: unavailable

Physical Device Path....: 32

Serial Number...........: 2545cef80





>---------- End Event Monitoring Service Event Notification ----------<



1 응답 1
고광태
중학생

질문 폭탄이라 죄송한데 마지막으로 1개만 더...^^;;;

LPMC ( 캐쉬 패리티에러 ) 는 복구된 에러로서 아주 지극히 정상적인 서버에서도 간헐적으로 발생합니다.

대부분 transient error 로서 일시적인것입니다. 즉 반복되지않고 다양한 프로세서에서 일시적으로 생긴다는 뜻입니다.

실제로 컴퓨터 내부가 경험하는 캐쉬 패리티 에러는 캐쉬에서 필요한 데이타를 읽는데 실패( miss ) 가 발생하고

다시한번 시도하여 읽기( re-fetches ) 할경우 패리티 에러가 1회 로깅됩니다.

문제가 되는것은 동일 프로세서에서 반복적으로 발생하는것은 일시적인 현상이라기 보다는 물리적으로 문제가 있는것이기 때문에

교체를 하시는것이 좋습니다.여러번 시도하면 산술적으로 (정말로 많이 발생하면) 그순각 시스템이 늦어 질 수 있습니다.



예를들어 3달 동안 다른 프로세서에서 5회의 패리티 에러가 로깅되었다면 이것은 지극히 정상입니다.하지만

2달동안 20개의 패리티 에러가 있는데 이중 15개가 동일 프로세서라면 그 추이를 살펴보아야 합니다.

하루에 하나의 패리티 에러가 발생되면 EMS 에서 information event가 뜹니다. 그리고 24시간내 동일 프로세서에서 5개의

패리티에러(LPMC) 가뜨면 해당 프로세가 deallocate ( 그프로세서에 프로세스가 할당되지 않습니다. ) 되고 다음 부팅에

deconfig ( 시스템에서 전혀 보이지 않습니다. ) 됩니다.

갑자기 패리티에러가 순식간에 늘어날경우( 동일프로세서에서 24시간내 5개 이상) 그프로세스에 놀고있는 상태가 되므로

시스템을 가능한 빨리다운 시키고 프로세서( 혹은 셀보드 ) 를 교체하여야 하지만 이런 범위에 들지않지만 동일 프로세서에서

하루에 4개정도씩 매일 생긴다면 다운타임이 가능한 시간을 잡아서 교체하시면 됩니다. 이런 범위도 아닌 간헐적으로 여러

프로세서에서 돌아가면서 발생하는것은 지극히 정상이므로 무시하셔도 됩니다. 이런것이 향후 시스템 다운을 초래하는것은

아닙니다.

이런 에러 횟수는 syslog.log 에 EMS관련되어 뜨는 메시지를 보시면됩니다







먼저 대부분의 CPU I-cache error는 일회성의 장애로 계속 반복적으로 발생하진 않습니다.Single bit memory error처럼 이런류의 장애는 hardware 상태가 좋은경우에도 발생할수있습니다.장애원인으로는 여러가지 요인이 있는데,그중에는 대기중의 방사성이 원인경우도 있습니다. 장애가 cpu이외인 곳,방사성이 원인이면 장애는 여러 cpu에서 randomly발생하는 것이 일반적입니다.반면에 defective icache가 원인이면 I cache 장애는 한곳에서 반복적으로 발생할수있습니다.



예를 들면 5번의 I-cache parity error가 3개월동안 다른cpu에서 발생했다면 이장애는 무시해도 되는장애입니다.만일 20번의 icache장애중 15번이 같은 cpu에서 발생했다면 이장애는 cpu cache에 문제가있는것으로 보면됩니다.



다음은 장애 횟수에 대한 가이드라인입니다.





1번장애/24시간---- EMS에서 Information event로알려줌

5번이상/24시간(동일 CPU에대해)---- EMS에서 Serious event로 알려주고,해당 cpu을dealloction(OS에서 사용하지않도록)을하고 다음boot시 deconfiguration하기위해bad mark해놓는다



이와같이 Icache장애는 발생횟수가 중요합니다.문제발생시 동일 processor에서 얼마나 발생했는지를 확인하시어 위의 가이드와비교하여 상황을 판단하시기 바랍니다.