Itanium服务器
1748205 成员
4696 在线
108759 解答
新建帖子

HPUX分析Crash Dump_q4pxdb vmunix

 
Jony_wang
投稿人

HPUX分析Crash Dump_q4pxdb vmunix

分析Crash Dump 通常crash dump 是由响应中心进行分析的,因为深入地分析需要对操作系 统的内部有深入地了解。然面有时crash dump 的原因很简单,如果能够很快找到 原因,就会缩短解决故障的周期。 下面只介绍一种最简单的方法,需要用到Q4 工具(默认安装都有)。 #cd /var/adm/crash/crash.0 #enter the dump dir you want to analysis #q4pxdb vmunix #may not be neccessary #echo "run WhatHappened" | q4 -m –Np . > wh.txt 以上命令通过调用名为WhatHappened 脚本将系统发生crash 时的状况大致列出来,保存到wh.txt 文件中。如果Crash 是因为MC/SG 发出的TOC 命令,或是因为HPMC 等原因,在这里就已经可以清楚地看到了。 Core dump的几种类型总结: Core dump的几种类型总结: Panic ----这种类型主要是kernel问题,是可以通过修补系统解决的,一般是系统造成。 HPMC --- High Priority Machine Check.。这通常是硬件出了问题。比如CPU,memory或者I/O总线等等。 Hang --- 一般是在系统运行大量进程,导致系统资源不足引起的,系统本身并没有问题。或许资源过一段时间会释放。不过有时也有可能是硬件或者系统bug引起。 下面简单介绍一下HPMC High Priority Machine Check,是服务器确保可靠性的措施之一。 当系统发现了某些可能会影响数据完整性的错误时,例如CPU data cache检验错,就会发出一个HPMC,记录相关信息以供分析,并使主机重起要求对错误进行纠正。 与之相对应的是LPMC,Low Priority Machine Check,这样的错误通常比较轻微,例如内存发生single-bit parity error, 内存的校错机制可以在single-bit error时自动纠错,所以通常LPMC只是在syslog中与mstm log中加一行日志。 HPMC一般说来与OS无关,是硬件层面上的。在极个别的情况下,软件也会引发HPMC。 收集HPMC 在发生HPMC时,故障发生时CPU的状态等信息会被保存下来。 分析HPMC的第一步就是取得这些信息。 收集HPMC信息的途径有多种,在PDC菜单中SER->PIM,或是在mstm中对CPU设备get information,/var/tombstones下的tsXY文件等都可以找到HPMC的记录,可以根据当时的情况选择合适的方法。 通常比较方便的办法是看/var/tombstones/下与系统重起日期吻合的文件,ts99是最新的文件,每次系统重起都会产生一个新的ts99。如果发现这些文件中没有相关的信息,检查/etc/rc.config.d/pdcinfo中PDCINFO是否设为1。 分析HPMC 分析HPMC同样是一种艺术,需要丰富的知识和经验,上过相关课程的应该记得那些框图有多复杂。通常工程师在现场收集相关的信息交由响应中心进行处理。但是基于与处理crash dump相同的理由,自已处理一些简单的case并非不可能。