HP-UX

Reboot after panic...

 
박주경
조언자

Reboot after panic...

안녕하세요.



정상적으로 운영하던 서버가 갑자기 리부팅되어버렸습니다.



Shutdownlog를 확인하니 'reboot after panic' 이라는 메시지가 있네요.



그래서 관련내용을 포럼에서 찾아보고



/var/adm/crash 와 /var/tombstones/ts99를 확인해보니 서버 비정상 종료시간에 해당파일이 생성되어 있었습니다.



crash 디렉토리의 image 파일은 확인을 못했고..

(HP에 보내서 문의를 해야한다고...맞나요?)



ts99 확인해보면 서버 하드웨어 문제는 아닌 듯..



리부팅 후의 서버 증상은 디스크어레이와 연결되어있는 파일시스템이 깨져 있었는데, 이는 newfs로 복구했습니다.(newfs로 하는게 맞는지..;;)



그리고 ioscan이 안되네요. fnC 옵션을 주었는데..이건 계속 안되구요.



서버 syslog를 확인해보면 fc switch(san switch) 관련 메시지가 있고,

LVM 관련 메시지도 있네요.



syslog, syslog eventlog 첨부하니 보시고 조언부탁드립니다.



syslog를 보면서 궁금한 점이 있는데요.

'LVM: Performed a switch for Lun ID = 0 (pv = 0x0000000040310800), from raw device 0x1f101700 (with priority: 0, and current flags: 0x240) to raw device 0x1f031700 (with priority: 1, and current flags: 0x0).'



위 내용은 primary path로 접근할 수 없어서 alternate path로 경로변경이 있었다는 내용 같은데.. 맞나요?



위 메시지에서 '0x1f101700' 는 'cXtXdX' 포멧으로 어떻게 변경하는건지요..(0x1f를 제외하고 10 17 00 을 각각 십진수로 바꾸면 되는건지..;;)



그리고 경로변경 메시지(제 생각이 맞다면..)는 8개 뿐인데..



아래와 같은 메시지는 200개가 넘네요...

'LVM: PV X has been returned to vg.'



syslog 분석 좀 부탁드립니다...



그리고 추가 질문이요...



저희는 fc switch가 2중화 구성되어 있는데요.



둘중 한대의 fc switch에 장애가 발생하면 서버에서 디스크어레이로의 접근은 문제가 없어야 할거 같은데...아닌가요??



제대로 이중화 구성을 위해 H/W적인면 말고, S/W적으로도 뭔가 해야하는 것이 있는지 알려주세요..(구성파일이나, 명령어나...)



너무 두서없이 질문하고, 질문내용도 많은데..양해바랍니다..^^;



고수님들의 조언부탁드립니다. 감사합니다..
3 응답 3
김병수
본과생

Reboot after panic...

crash directory 안에서 core file 이 생성되었다면 q4를 돌려보시기 바랍니다.



# q4 -p .



q4> crash event 0



하시어 HPMC인지 확인하시기 바랍니다.



ts99 file이 보니 HPMC는 아닌듯합니다. 즉,hardware적인 장애의 요소는 적다는 의미이구요.



'0x1f101700' 는 'cXtXdX' 포멧으로 바꾸면../dev/dsk/c10t1d7을 의미합니다.



이중확되어 있는 switch라고 하더라도 구성시 alternative path를 지정하지 않으면 의미가 없습니다.



crash dump가 발생되었다면 core file을 HP에 보내 의뢰하시기 바랍니다.



위에서 언급되었던 것이지만..



q4 > crash event 0

하여 나타나는 messaage가 panic이라면 다른 application에 의해 발생될수 있습니다.







그럼~~~
박주경
조언자

Reboot after panic...

답변 정말 감사드립니다..^^



이중확되어 있는 switch라고 하더라도 구성시 alternative path를 지정하지 않으면 의미가 없다고 하셨는데, 그럼 제대로 구성되어 있는지 확인하는 방법은 어떤게 있나요?

vgdisplay 하면 각 pv별로 alternate link가 나오던데 그러면 정상인건지..



그리고 '0x1f101700' 는 'cXtXdX' 포멧으로 바꾸면../dev/dsk/c10t1d7이라고 하셨는데..10은 16진수 아닌가요? 바꾸면 /dev/dsk/c16t1d7..?

다른 path를 보면 '0x1f0d0000' 이런게 나오기에....



포럼을 뒤져서 q4를 돌려봤는데..결과물을 봐도...ㅡㅡ;;

trace.out , ana.out 이건 해석할 수가 없더군요..

단순히 grep으로 HPMC가 없다는것만 확인...ㅡㅜ



정우익
임시 조언자

Reboot after panic...

0x1f101700 가 16진수 맞구요 일단 16진수에서 10은 그냥 10입니다.



이후 1A, 1B, 1C, 1D, 1F, 가 있구요..



현재 fc switch 이중화 하면서 Secure Path 는 사용안하신 것으로 보이는데요



Secure Path 를 사용한다고 한다면 자동으로 Secure Path가 넘겨 줄 수 있도록 Setting 가능합니다.



위에 김병수 님이 잘 설명해 주셨는데요

Crash Dump 를 HPRC에 가능한 빨리 보내서 해결하는 것이 좋을 듯합니다.



그리고 현재 FC 쪽에 무언가 문제가 있어서 N Port ID 가 변경 된것 같네요





fcmsutil Command 로 다시 변경 해주던가 해야 합니다 .