HP-UX

비정상적인 서버 다운에 대한 로그가 어디에 남는지...

 
정은미
비정기 기여자

비정상적인 서버 다운에 대한 로그가 어디에 남는지...

안녕하세요...

hpux 사용 초보자입니다.



/var 아래의 여러 로그 파일들을 살펴보았으나..

비정상적인 종료에 대한 로그는 남아 있지 않는듯 합니다.

전원문제로 서버가 비정상적으로 종료된듯 한데 그에대한 로그는 어디서 확인을 해봐야 하는지...



답변을 좀 부탁드립니다.

3 응답 3
이명우
정기 조언자

비정상적인 서버 다운에 대한 로그가 어디에 남는지...

비정상적인 종료(장애 또는 천재지변)로 시스템이 Down 되는 경우

운영자들(저 포함)이 가장 처음 보는 것은 /etc/shutdownlog 입니다.

대부분이 Panic 이나 HPMC 등이 기록 되어 있습니다.



다만 말씀 하신 전원의 문제로 Down이 되게 되면 아무런 기록이

남지 않습니다. 물론 Syslog나 OLDSyslog가 존재 하더라도 log File

내에 문제가 있던 기록은 남지 않습니다.



혹시 장비에 자체 UPS가 설치 되어 있고 기능이 정상작동 한다면

외부 전원 공급이 중단되는 경우 OLDSyslog에 Warning message가

System Down 되기 전에 기록이 되어 있으실 겁니다.



이외에 Hardware 장애, OS 내부에 bug 로 인한 장애들인 운영자들이

지정한 save crash Directory (/etc/rc.config.d/savecrash 내에 설정)

core.n(숫자) Directory가 생생되며 그 안에 보시면 INDEX File 및

core File 들이 저장되어 있습니다.



또한 /var/tombstones Directory 내에 ts99 File로 PDC나 기타 다른

정보들이 기록되어 지면 이전 File 들은 file 번호들이 하나씩 줄어

들게 됩니다. ts99 -> ts98, ts98 -> ts97 ....

그럼 좋은 하루 되세요.

고광태
중학생

비정상적인 서버 다운에 대한 로그가 어디에 남는지...

1. 일단 /etc/shutdownlog 를 살펴보시기 바랍니다.



2. /var/adm/syslog/OLDsyslog.log 파일 보세요..



3. dmesg 로 부팅되면서 어떤 에러를 발생했는지 보시구요.



4. /var/tombstones/ts99 파일내에 HPMC 시간 stamp 가 찍혀있는지 보세요..



일단 에러메세지 확인후..장애조치를 하시면 되겠네요..



ts99 파일내에 time stamp 가 찍혀있으면 HP 에 연락해서 분석요청하세요..



아래 내용 참조하세요..



1) 장애유형(HPMC)

가) 증상

High priority machine check.

fatal error로 인해 시스템이 더이상 동작할수 없는 상태이며 리부팅을 필요로 합니다. 하드웨어 문제가 대부분이고 간혹 소프트웨어적인 문제가 원인이 될수 있음



나) 조치사항

문제를 해결하기 위해서 발생시점의 정확한 시스템 상태를 RC에 제공하여야 함..V-Class server의 경우 TestStation에 자동적으로 여러가지의 시스템 로그가 기록되게 되어 있습니다.

문제를 분석하기 위해 다음의 절차를 통해 시스템 정보를 수집할 수 있습니다.

Step 1. system console에 나타나는 에러 메세지를 꼭 메모해 둡니다.

Step 2. system LCD에 나타난 정보들을 꼭 기록해 둡니다.

LCD에 나타난 글자 및 반짝이던지 켜져있던지 하는 여러상태들

Step 3. V class의 경우 teststation의 /spp/data 디렉토리에 있는 여러 로그들



Step 4. 리부팅후 해당 시스템의 /var/adm/syslog 디렉토리의 log확인

Step 5. /var/tombstones디렉토리의 하드웨어로그 확인



2) 장애유형(PANIC)

가) 증상

system panic은 HPUX가 하드웨어 및 소프트웨어 문제로 더 이상 시스템 운영을 진행할 수 없는 문제에 봉착 했을 때 일어납니다.

시스템이 적절하게 shut down이 되지 않았을 경우 부팅하는 동안에도 발생할 수 있습니다.

system panic후 시스템은 다음의 상태가 됩니다:

Panic이 HPMC에 의한 경우라면 콘솔상에 HPMC tombstone 메세지가 나타날 것입니다. tombstone은 문제해결을 위한 레지스터값의 리스트 정보입니다.

core file을 dump device 에 저장한후 리부팅을 하게 됩니다.

일반적으로 Panic메세지가 콘솔상에 뿌려지고 관련 메세지가 나타납니다.

리부팅후 dump device에서 파일시스템으로 coredump file을 다시 카피하게 됩니다.



나) 조치사항

복구는 간단하게 Rebooting을 하는 걸로 해결할 수 있습니다. 최악의 경우 OS를 재설치하고 삭제되거나 깨진 파일을 복구해야 하는 경우도 있을 수 있습니다.

하드디스크 Fault와 같은 하드웨어 문제라면 해당 하드디스크를 교체하고 OS를 재 설치하는 걸로 복구될 수 있습니다.

시스템 패닉의 문제를 해결하기 위해 다음의 절차를 따르십시오.

Step 1. HPMC tombstone console상에 나타나면 "Machine Check Parameters"항목과 해당 내용을 메모합니다.



Step 2. system console상에 나타난 panic메세지를 메모해 둡니다.다음과 같은 항목이 나오는 부분을 메모합니다.

System Panic

HPMC

Privilege Violation

Data Segmentation Fault

Instruction Segmentation Fault

Step 3. 패닉 메세지를 유형별로 분류합니다. 간혹 메세지는 HP-UX의 내부구조에 관련된 내용이거나 명확하지 않은 메세지를 뿌릴수도 있습니다.메세지를 통해 크게 다음의 범주로 나눠볼수 있습니다.

Server or I/O card problem

File system problem

LAN communication problem

Logical Volume Manager (LVM) problem

Other

Peripheral problem



3) peripheral hardware failure 시 조치사항

Step 1. device에 power가 on되어 있는지 online상태인지 확인합니다.

Step 2. device에 error display되는지 확인하고 있다면 메모해둡니다.

device를 offline상태로 한후 power를 내립니다.

디스크라면 디스크의 회전이 멈출때까지 기다립니다.

디바이스의 파워를 켠후 다시 online상태로 만듭니다.

Step 3. device address 또는 ID가 올바른지 점검합니다.

Step 4. cable, terminator의 연결유무를 검사합니다.

Step 5. 시스템이 reboot되지 않았을 경우 rebooting합니다.

Step 6. 문제가 재발될경우 interface card나 시스템문제일 것입니다.

다음에 있는 interface card and system problem 항목을 참조합니다.



4) Interface card and system problem 시 조치사항

system이나 interface card와 연관된 하드웨어 문제가 의심되면 다음의 절차에 따릅니다.:

Step 1. HPMC tombstone이 나타나면 그것을 메모합니다.

Step 2. LCD에 나타난 정보를 메모합니다.

Step 3. teststation의 /spp/data 디렉토리의 log 및

sppconsole window의 모든 입력 및 출력된 내용들을 메모

Step 4. 시스템이 리부팅되지 않았다면 리부팅시킵니다.

또다시 panic이 발생한다면 HPRC에 연락을 취합니다.

5) File system problem 시 조치사항

Panic message가 file system에 관련이 있다면 시스템을 rebooting 시킵니다.

그리고 나서 fsck(File System ChecK)를 사용해 파일시스템을 체크합니다.

단 루트(/) 파일시스템에 문제가 있다면 fsck로 파일시스템을 수정한 후 reboot –n 으로 리부팅 시켜야 합니다. n 옵션은 수정된 파일시스템이 수정되지 않은 파일시스템으로 overwrite 되는것을 막아줍니다.

일반적으로 rebooting시 자동적으로 fsck가 작동하게 되어 있습니다.

Primary disk로 부팅이 아예 실패하고 mirror된 Disk로도 부팅이 실패한다면 메인턴스 모드로 부팅을 시도해 볼수 있습니다.

Rebooting시 ISL모드로 들어가서 다음의 명령어로 부팅을 시도합니다.

ISL>HPUX -lm



6) LAN communication problem 시 조치사항

lan에 관련해서 문제가 발생했을 경우 다음의 절차에 따라서 점검

.

Step 1. LAN cable과 MAU의 연결상태를 확인

Step 2. LAN interface card의 LED상태를 확인합니다. Falut LED,Link LED상태를 주의깊게 살펴봄

Rebooting 된 후에도 계속 LAN interface card나 내부문제로 에러가 발생한다면 HPRC로 도움을 요청



7) Logical Volume Manager (LVM) problem 시 조치사항



Logical volume의 사이즈가 file system의 사이즈보다 작다면 해당부분을 엑세스할때 sytem panic이 발생되게 됩니다. 즉, LVM정보가 currupt된 경우 시스템에 문제가 발생합니다.

파일시스템이 currupt됐을 경우에도 LVM에 영향을 미칠수 있습니다.

보통 이런경우 LVM정보가 잘못되어서 아예 재부팅이 안되거나 Hang이 유발될수도 있습니다. 올바른 LVM정보를 가지고 있다면 다시 수정해줌으로서 문제가 해결될수도 있지만 LVM의 복구는 상당히 어려운 작업이 될 가능성이 높습니다.

따라서 항상 최신의 시스템 정보를 백업해두어야 합니다.

김병수
본과생

비정상적인 서버 다운에 대한 로그가 어디에 남는지...

비정상적인 종료라고 함은 갑자기 system이 shutdown이 되었다는 문제인가요..아니면 전원의 문제로 system이 down되었다는 말씀인가요.



보통의경우 전원에 문제가 생겨 system이 down되었다면 log를 남기지 않는것으로 일고 있습니다.



저희회사 server에 전원이 문제가 되어 log를 찾아 보았으나 어떠한 log도 남기지 않았습니다.



system이 panic이 나면서 종료되었다면 /var/adm/crash file들을 check하여 보시기 바라구요.

/var/tombstone/ts file들을 check하여 보시기 바랍니다.



그럼~~