- Community Home
- >
- HPE Community, China
- >
- 服务器
- >
- Itanium服务器
- >
- HPUX分析Crash Dump_q4pxdb vmunix
Itanium服务器
1748205
成员
4696
在线
108759
解答
论坛
类别
Company
Local Language
返回
论坛
讨论平台
返回
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
- BladeSystem Infrastructure and Application Solutions
- Appliance Servers
- Alpha Servers
- BackOffice Products
- Internet Products
- HPE 9000 and HPE e3000 Servers
- Networking
- Netservers
- Secure OS Software for Linux
- Server Management (Insight Manager 7)
- Windows Server 2003
- Operating System - Tru64 Unix
- ProLiant Deployment and Provisioning
- Linux-Based Community / Regional
- Microsoft System Center Integration
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
博客
信息
社区语言
语言
论坛
博客
- 将帖子标记为未读
- 加注书签
- 订阅
- 禁止
- 订阅此主题的 RSS 提要
- 高亮显示此帖
- 打印此帖
- 报告不当内容
修改时间 10-08-2015 12:00 PM
修改时间 10-08-2015 12:00 PM
HPUX分析Crash Dump_q4pxdb vmunix
分析Crash Dump 通常crash dump 是由响应中心进行分析的,因为深入地分析需要对操作系 统的内部有深入地了解。然面有时crash dump 的原因很简单,如果能够很快找到 原因,就会缩短解决故障的周期。 下面只介绍一种最简单的方法,需要用到Q4 工具(默认安装都有)。 #cd /var/adm/crash/crash.0 #enter the dump dir you want to analysis #q4pxdb vmunix #may not be neccessary #echo "run WhatHappened" | q4 -m –Np . > wh.txt 以上命令通过调用名为WhatHappened 脚本将系统发生crash 时的状况大致列出来,保存到wh.txt 文件中。如果Crash 是因为MC/SG 发出的TOC 命令,或是因为HPMC 等原因,在这里就已经可以清楚地看到了。 Core dump的几种类型总结: Core dump的几种类型总结: Panic ----这种类型主要是kernel问题,是可以通过修补系统解决的,一般是系统造成。 HPMC --- High Priority Machine Check.。这通常是硬件出了问题。比如CPU,memory或者I/O总线等等。 Hang --- 一般是在系统运行大量进程,导致系统资源不足引起的,系统本身并没有问题。或许资源过一段时间会释放。不过有时也有可能是硬件或者系统bug引起。 下面简单介绍一下HPMC High Priority Machine Check,是服务器确保可靠性的措施之一。 当系统发现了某些可能会影响数据完整性的错误时,例如CPU data cache检验错,就会发出一个HPMC,记录相关信息以供分析,并使主机重起要求对错误进行纠正。 与之相对应的是LPMC,Low Priority Machine Check,这样的错误通常比较轻微,例如内存发生single-bit parity error, 内存的校错机制可以在single-bit error时自动纠错,所以通常LPMC只是在syslog中与mstm log中加一行日志。 HPMC一般说来与OS无关,是硬件层面上的。在极个别的情况下,软件也会引发HPMC。 收集HPMC 在发生HPMC时,故障发生时CPU的状态等信息会被保存下来。 分析HPMC的第一步就是取得这些信息。 收集HPMC信息的途径有多种,在PDC菜单中SER->PIM,或是在mstm中对CPU设备get information,/var/tombstones下的tsXY文件等都可以找到HPMC的记录,可以根据当时的情况选择合适的方法。 通常比较方便的办法是看/var/tombstones/下与系统重起日期吻合的文件,ts99是最新的文件,每次系统重起都会产生一个新的ts99。如果发现这些文件中没有相关的信息,检查/etc/rc.config.d/pdcinfo中PDCINFO是否设为1。 分析HPMC 分析HPMC同样是一种艺术,需要丰富的知识和经验,上过相关课程的应该记得那些框图有多复杂。通常工程师在现场收集相关的信息交由响应中心进行处理。但是基于与处理crash dump相同的理由,自已处理一些简单的case并非不可能。
以上表述为作者个人观点,不代表惠普公司,使用本网站,请遵守网站使用规则和条款
© 版权所有 2024 慧与发展有限责任合伙企业