荟聚奇文、博采众长、见贤思齐
当前位置:公文素材库 > 报告体会 > 工作报告 > HP设备预防性巡检报告模版V1

HP设备预防性巡检报告模版V1

网站:公文素材库 | 时间:2019-05-29 05:51:28 | 移动端:HP设备预防性巡检报告模版V1

HP设备预防性巡检报告模版V1

HP主机巡检服务报告

公司名称客户信息部门联系人手机公司名称服务商信息地址联系人手机南京南瑞集团公司南京市鼓楼区南瑞路8号210003电话电子邮件025--83092831电话电子邮件主机硬件检查检查内容指示灯状态分区状态(仅限高端产品)处理器内存磁盘I/O正常正常正常正常正常正常正常异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:检查结果网络正常正常磁带机DVD,CD-ROM正常正常机器的出风口和入已清洁不需要清洁说明:风口是否需要清洁系统日志检查检查内容GSP/MP/SP日志dmesg输出系统启动日志系统运行日志正常正常正常正常检查结果异常说明:异常说明:异常说明:异常说明:

第1页共3页

HP主机巡检服务报告

系统shutdown日志文件系统正常正常异常说明:异常说明:有说明:有说明:系统近期有无HPMC无系统近期有无Core无Dump检查内容集群的运行状态集群的日志锁盘检查正常正常正常检查结果异常说明:异常说明:异常说明:系统备份检查做vg配置信息的备份询问客户有否在系统变更后或每半年做ignite系统备份询问客户数据库及应用、应用数据是否定期有效进行备份询问客户磁带机是否按要求定期清洁完成是是是失败说明:否建议:否建议:否建议:系统总体性能评估Usr:%Sys:%CPU平均使用率Idle:%IO所占用的CPU使用率空闲的物理内存交换区使用情况Wio:%Free:K建议:建议:建议:PctUsed(Total):%建议:

第2页共3页

HP主机巡检服务报告

检查结论:下一步工作计划:客户意见:□非常满意□满意□不满意客户建议:

客户签字:年月日联系电话:

(签字人有效电话,便于客服回访)

工程师签字:年月日

第3页共3页

扩展阅读:HP主机设备巡检标准版V1

HP巡检指导说明

目录

1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.

PM过程中注意事项................................................................................................................3预防性报告的使用方法.........................................................................................................3登录系统注意事项.................................................................................................................3确定机器型号及操作系统型号.............................................................................................3查看MP日志及Cell版状态................................................................................................3查看系统硬件状态-IOSCAN命令..........................................................................................4Dmesg查看系统缓冲区内容.................................................................................................5系统启动日志........................................................................................................................7系统运行日志........................................................................................................................7系统shutdown日志..............................................................................................................7EMS日志................................................................................................................................8文件系统(bdf)......................................................................................................................8系统近期有无HPMC................................................................................................................8系统近期有无CoreDump......................................................................................................8查看逻辑卷状态....................................................................................................................9Dump区的配置是否合理.......................................................................................................9集群的运行状态...................................................................................................................10集群的日志...........................................................................................................................11锁盘检查..............................................................................................................................12系统信息收集......................................................................................................................12CPU平均使用率(#sar)...................................................................................................13IO所占用的CPU使用率.....................................................................................................13空闲的物理内存(#top)...................................................................................................14交换区使用情况(#swapinfoatm).................................................................................14查看系统CPU个数,内存数量.............................................................................................

1.PM过程中注意事项

预防性报告的使用方法

在到达用户现场前,打印预防性维护报告,一式两份。在完成维护后,签名并留一份

拷贝给客户,另一份保存在公司文档中。

PM过程中,请尽量保存详细的日志,以备不时之需

本文档为巡检的简易文档,如有时间,请多阅读我的MP:13826181760

2.登录系统注意事项

登陆HPUX操作系统,以避免产生彗星撞地球之类不可预料事,请多开窗口以防万一

A:开多个窗口命令:#TSMB:切换窗口命令:#CTRL+wC.退出TSM命令:#quit

同时请打开SecureCRT等软件的日志Log功能,以便记录下相关重要日志

3.确定机器型号及操作系统型号

a.确定系统型号命令:#modelb.确定系统序列号

命令:#getconfCS_MACHINE_SERIAL

如果此命令失效,物理观察取得机器序列号c.确定操作系统型号命令:#unamea

HP-UXasogz3B.11.11U9000/8001135931517unlimited-userlicense

4.查看MP日志及Cell版状态

a.查看MP卡错误日志,及消除System黄灯告警

1.从串口或者MPLAN口登陆MP卡

Account:AdminPassword:Admin2.出现如下登陆窗口

MPMAINMENU:

CO:Console

VFP:VirtualFrontPanel

CM:CommandMenuCL:ConsoleLogSL:ShowEventLogsHE:MainHelpMenuX:ExitConnection

[rp4440_mp]MP>

输入命令:SL

3.紧接着就可查看MP卡日志命令序列:e->a->3

此时就可以看到导致System黄灯事件了,多按几次Enter,黄灯就能被消灭了.

b.查看系统Cell版电源状态,或者风扇状态:

MPMAINMENU:

CO:Console

VFP:VirtualFrontPanel

CM:CommandMenuCL:ConsoleLog

SL:ShowEventLogsHE:MainHelpMenuX:ExitConnection

[rp4440_mp]MP>

在此窗口下,输入命令:CM然后输入命令:PS

此时就可以看到Fan及Power状态了,如下:

[rp3440]MP:CM>ps

PS

SystemPowerstate:OnTemperature:NormalPowersuppliesState

-----------------------------------------------------------

PowerSupply1Normal

PowerSupply2NotInstalled

FansState

-----------------------------------------------------------

Cooling1(Sys)NormalCooling2(Mem)NormalCooling3(Disk)Normal

5.查看系统硬件状态-IOSCAN命令Ioscan作为查看系统硬件状态的重要命令,其状态CLAIMED为正常,

NO_HW,UNCLAIMED,UNKNOWN为不正常,至于三命令为何种不正常,请参看,在此略过不提

a:ioscan磁盘

命令:#ioscanfnCdiskb:ioscanIO

命令:#ioscannfc:ioscan网络

命令:#ioscannfClan命令:#lanscan

命令:#ifconfiglanX

此处有两条辅助命令lanscan及ifconfigLanscan状态UP为正常,down为异常

Ifconfig显示正确配置ip为正常,非配置ip为异常

6.Dmesg查看系统缓冲区内容运行命令dmesg是一个即简单又快捷的方法来查看系统硬件及文件系统有无报错。dmesg

的工作原理是直接从系统的缓冲器(buffer)中读取系统最近一段时期内的硬件状态。命令dmesg的缺点是输出结果中没有时间标志,同时因为缓冲器的容量有限,近期的内

容会覆盖缓冲器里以前的内容,因此如果有些故障输出,而机器一两年没重启过,也属正常,不必过分关注.

服务器没有硬件报错时,dmesg的标准输出是:

May1410:38

gate64:sysvec_vaddr=0xc000201*for2pages

NOTICE:autofs_link():Filesystemwasregisteredatindex3.NOTICE:cachefs_link():Filesystemwasregisteredatindex5.NOTICE:nfs3_link():Filesystemwasregisteredatindex6.0sba0/0lba

0/0/0/0btlan0/0/1/0c7200/0/1/0.7tgt0/0/1/0.7.0sctl0/0/1/1c7200/0/1/1.2tgt0/0/1/1.2.0sdisk0/0/1/1.7tgt0/0/1/1.7.0sctl0/0/2/0c7200/0/2/0.7tgt0/0/2/0.7.0sctl0/0/2/1c7200/0/2/1.2tgt0/0/2/1.2.0sdisk0/0/2/1.7tgt0/0/2/1.7.0sctl0/0/4/0asio00/0/5/0asio00/1lba0/2lba

0/2/0/0c7200/2/0/0.0tgt0/2/0/0.0.0schgr0/2/0/0.1tgt0/2/0/0.1.0stape0/2/0/0.7tgt0/2/0/0.7.0sctl0/3lba0/4lba

c8xxBUS:5SCSIC1010UltraWideLVDassignedCPU:00/4/0/0c8xx0/4/0/0.6tgt0/4/0/0.6.0sctl0/5lba

0/5/0/0c7200/5/0/0.2tgt0/5/0/0.2.0stape0/5/0/0.7tgt0/5/0/0.7.0sctl0/6lba0/6/0/0td

td:claimedTachyonXL2FibreChannelMassStoragecardat0/6/0/00/6/0/0.8fcp

0/6/0/0.8.0.110.0fcparray0/6/0/0.8.0.110.0.0tgt0/6/0/0.8.0.110.0.0.0sdisk0/6/0/0.8.0.110.0.0.1sdisk0/6/0/0.8.0.110.0.0.2sdisk0/6/0/0.8.0.110.1fcparray0/6/0/0.8.0.110.1.0tgt0/6/0/0.8.0.110.1.0.0sdisk0/6/0/0.8.0.110.1.0.1sdisk0/6/0/0.8.0.110.1.0.2sdisk0/6/0/0.8.0.255.6fcpdev0/6/0/0.8.0.255.6.14tgt0/6/0/0.8.0.255.6.14.0sctl0/7lba

c8xxBUS:7SCSIC1010UltraWideLVDassignedCPU:10/7/0/0c8xx0/7/0/0.6tgt0/7/0/0.6.0sctl8memory

160processor166processor

btlan:Initializing10/100BASE-TXcardat0/0/0/0....

SystemConsoleisontheBuilt-InSerialInterfaceLogicalvolume64,0x3configuredasROOTLogicalvolume64,0x2configuredasSWAPLogicalvolume64,0x2configuredasDUMP

Swapdevicetable:(start&sizegivenin512-byteblocks)

entry0-majoris64,minoris0x2;start=0,size=5242880Dumpdevicetable:(start&sizegivenin1-Kbyteblocks)

entry0000000000000000-majoris31,minoris0x1201*;start=310112,size=2621440

StartingtheSTREAMSdaemons-phase1CreateSTCPdevicefilesStartingtheSTREAMSdaemons-phase2

$Revision:vmunix:vw:-projselectors:CUPI80_BL201*_1108-c"VwforCUPI80_BL201*_1108build"--cupi80_bl201*_1108"CUPI80_BL201*_1108"WedNov819:24:56PST201*$MemoryInformation:

physicalpagesize=4096bytes,logicalpagesize=4096bytes

Physical:1310720Kbytes,lockable:1127096Kbytes,available:1091104Kbytes

我们查看dmesg的输出时,应着重观察有没有类似”SCSIReset”,“DiskPowerFailed”,

“PVpath”,“LPMC”,“filesystemfull”等报错信息。如果有,可以在系统的syslog中进一步确定错误发生的时间,从而对所报错误进行定位.

7.系统启动日志

请输入命令:#cat/etc/rc.log记录系统启动日志系统的启动日志是指文件:/etc/rc.log.

我们可以用vi命令进行查看,看/etc/rc.log日志中有没有”Fail”或”error”;如果

有,就代表系统在启动时相应的启动脚本运行失败。

8.系统运行日志

请输入命令:#more/var/adm/syslog/syslog.log记录系统运行日志,有些系统长年未重

启过,日志超大,输入命令#tail-500/var/adm/syslog/syslog.log观察机器具体运行情况.

系统的运行日志是指文件:/var/adm/syslog/syslog.log.查看syslog.log日志中有没有”SCSIReset”,“DiskPowerFailed”,“PVpath”,

“LPMC”,“filesystemfull”,“Fail”,“Error”,“Warning”等错误信息。如果有,请根据经验给出合理的解释;如果有EMSlog,可以按照其提示的命令看具体的内容;如有必要请联系我.

9.系统shutdown日志

请输入命令:#cat/etc/shutdownlog记录系统关机日志.

系统的shutdown日志(/etc/shutdownlog)记录了系统所有停止,重启的时间。

07:35SatMay11,201*.Reboot:(bySAM)

07:37SatMay11,201*.Reboot:(byasogz3!root)00:01SunMay12,201*.Reboot:(bySAM)00:04SunMay12,201*.Reboot:

17:17ThuMay30,201*.Reboot:(byasogz3!oracle9i)21:33ThuMay30,201*.Reboot:(byasogz3!root)

17:35FriApr30,201*.Halt:(byasogz3.guangzhou.guangdong-n.tax.cn!root)

我们可以同客户进行沟通,确认系统是否非正常重启过。

10.EMS日志

输入命令:#more/var/opt/resmon/log/event.logEMS日志记录系统硬件事件,仔细阅读确定有无故障.

11.文件系统(bdf)

用命令bdf查看文件系统的使用情况,如果有文件系统的使用率超过90%,请告知客户。

有可能的话,可帮助客户扩充相应的文件系统;或者和客户一起删除过期没用的文件。

12.系统近期有无HPMC

查看系统近期有没有HPMC的方法是:

#cd/var/tombstones#morets99

HP-UXasogz3B.11.11U9000/8001135931517

CPU-ID(Model)=0x11

-----------------Processor0HPMCInformation-PDCVersion:40.48------

Timestamp=MonApr2110:26:49GMT201*(20:03:04:21:10:26:49)

HPMCChassisCodes系统最近一次发生HPMC的时间(格林尼治时间)ChassisCodeExtension---------------------

0x000008201*ff62420x00000000000000000x180008201*0063020xc3808000000000000x0000087000ff62920x00000000000000000x60000820700060620x00000000011001700x70000820700060820x0000000000a41c000x201*082374ff6b830x0000ff00002aff740x201*082374ff6b830x0000ff00002bff740x201*082274ff6bc30x0000ff00002aff740x201*082274ff6bc30x0000ff00002bff74

0x00000800800063100x0000000000000001

13.系统近期有无CoreDump

查看系统近期有没有CoreDump的方法是:#cd/var/adm/crash#lltotal40

-rwxr-xr-x1rootroot1May30201*boundsdrwxr-xr-x2rootroot4096Apr809:59crash.0drwxr-xr-x2rootroot4096Apr110:02crash.1drwxr-xr-x2rootroot4096Mar910:04crash.2drwxr-xr-x2rootroot4096Mar210:06crash.3

系统CoreDump内容存到硬盘上的时间

在DUMP的子目录中的INDEX文件中dumptime和savetime会更精确地指出dump发生

及存储的时间。

14.查看逻辑卷状态.

系统硬盘物理损坏,一般前面故障指示灯,都会亮,但也有些古董级别的机器,坏了,故障灯依然长绿.为防此类事件,可查看逻辑卷状态命令:#vgdisplayvvg00|more

#lvdisplayv/dev/vg00/lv*|more

逻辑卷状态为Syncd/Active为正常;stale/Unknown为不正常.

15.Dump区的配置是否合理

对CoreDump的分析是我们定位系统故障原因的重要手段。

Dump区配置的是否合理,决定了CoreDump能否被成功保存到系统硬盘上。

以下是关于DUMP区配置的一些建议,请仔细检查主机系统中Dump区的配置是否满足要

求:

1.#lvlnbootv

BootDefinitionsforVolumeGroup/dev/vg00:PhysicalVolumesbelonginginRootVolumeGroup:/dev/dsk/c1t2d0(0/0/1/1.2.0)--BootDiskBoot:lvol1on:/dev/dsk/c1t2d0Root:lvol3on:/dev/dsk/c1t2d0Swap:lvol2on:/dev/dsk/c1t2d0Swap:lvol1on:/dev/dsk/c2t1d0Dump:lvol2on:/dev/dsk/c1t2d0,0系统DUMP区(PrimarySwap)

通常情况下,系统将PrimarySwap区作为系统的Dump区.

2.DUMP大小的要求

HPUX10.20:Dump区的大小一定要大于PhysicalRAM。

HPUX11.0&11i:为了成功将CoreDump保存到系统硬盘上,Dump区的大小需要介于PhysicalRAM的30%和60%之间,具体要根

据系统发生Dump时的忙闲程度。

3.如果系统现有的Dump区大小无法满足要求,请告知客户。

4.在条件允许的情况下,和客户协商并征得客户同意,可以增加Swap.

16.集群的运行状态

用命令#cmviewclv查看整个集群的运行状态。

#cmviewclvCLUSTERSTATUS正常:UP异常:DOWNacct_clusterupNODESTATUSSTATEacctdb_auprunningNetwork_Parameters:正常:running异常:down,unknownINTERFACESTATUSPATHNAME

PRIMARYup5/1/0lan2正常:UP异常:DOWNPRIMARYup3/0/0lan0STANDBYup5/0/0lan1PACKAGESTATUSSTATEAUTO_RUNNODEacct_pkg1uprunningdisabledacctdb_aPolicy_Parameters:正常:UP异常:DOWN正常:runningPOLICY_NAMECONFIGURED_VALUE异常:HaltedFailoverconfigured_nodeFailbackmanualScript_Parameters:

ITEMSTATUSMAX_RESTARTSRESTARTSNAMEServiceup00service1Subnetup192.168.0.0正常:UP异常:DOWNNode_Switching_Parameters:

NODE_TYPESTATUSSWITCHINGNAMEPrimaryupenabledacctdb_a(current)Alternateupenabledacctdb_b

NODESTATUSSTATEacctdb_buprunningNetwork_Parameters:

INTERFACESTATUSPATHNAMEPRIMARYup5/1/0lan2PRIMARYup3/0/0lan0STANDBYup5/0/0lan1

PACKAGESTATUSSTATEAUTO_RUNNODEacct_pkg2uprunningdisabledacctdb_bPolicy_Parameters:

POLICY_NAMECONFIGURED_VALUEFailoverconfigured_nodeFailbackmanualScript_Parameters:

ITEMSTATUSMAX_RESTARTSRESTARTSNAMEServiceup00service2Subnetup192.168.0.0Node_Switching_Parameters:

NODE_TYPESTATUSSWITCHINGNAMEPrimaryupenabledacctdb_b(current)Alternateupenabledacctdb_a

如果集群的运行状态有异常,请和客户一起确认产生异常的原因,并请联系我.

17.集群的日志

集群的日志是指文件:/etc/cmcluster/pkgXX/pkgXX.log.

集群的每个包(Package)都有自己的运行日志,并且每个包(Package)的实时日志是

保存在这个包所正在运行的主机节点上。我们查看集群的日志主要是看日志中有没有类似于“Failed”,“Error”等报错信息,

如果有请凭经验给出解释.

18.锁盘检查

对于由2个节点(主机)组成的集群(Cluster),我们需要确认集群中锁盘上的锁盘

标志是否存在。

检查集群中锁盘标志是否存在的方法是:

1.首先在集群的配置文件中找出主机上的锁盘。例如:

#Definitionofnodesinthecluster.

#Repeatnodedefinitionsasnecessaryforadditionalnodes.NODE_NAME

acctdb_alan2

NETWORK_INTERFACE

HEARTBEAT_IP192.10.1.3NETWORK_INTERFACEHEARTBEAT_IPNETWORK_INTERFACEFIRST_CLUSTER_LOCK_PV

lan0192.168.0.3lan1

/dev/dsk/c7t5d6

锁盘

2.然后用下面的命令检查锁盘上的标志信息是否存在:

#echo"0x2084?4D"|adb/dev/dsk/c7t5d6

2084:141941451010590466256

有锁盘标志

2084:0000

没有锁盘标志

如果输出结果的第二列是“1”,表明集群中锁盘上有锁盘的标志。如果输出结果的第二列是“0”,表明集群中锁盘上锁盘的标志已经丢失。

如果锁盘上没有锁盘的标志,可用以下命令将锁盘标志重新写到锁盘上,建议和客户

另外约时间并联系我.

19.系统信息收集

请用cstm收集系统相关信息

a:收集相关信息到文件/tmp/hp/info.out#cstmselall>info>>>>>>il>EOF

以上脚本中的几个空行是必要的,否则执行il命令时可能得不到正确结果。输出的结果被保存在info.out文件中,Memory,InternalDisk,Tapedrive等设备的序列号都会被列出来,通常CPU的序列号显示为0.b:Log收集的信息

#Cat/tmp/hp/info.out

20.CPU平均使用率(#sar)

#saru330(每隔3秒采样一次,共采样30次)

在业务高峰期使用saru命令

%usr=timespentinusermode%sys=timespentinsystemmode

%wio=timespentinblock,raw,andvirtualmemorymanagementI/O%idle=CPUtimenotbeingused

sar-uM:optionformultiprocessorplatforms.

首先应看%idle是否接近于0.如果是,那么看%wio是否大于7.如果%wio大于7,可能需要考虑是否有IO瓶颈。

如果%wio很小,但CPU依然很忙,要看一下%usr与%sys的比率。如果%usr很高,则可能说明用户的应用程序造成CPU瓶颈。如果大部分时间被%sys占用,需要进一步分析为什么系统会占用这么多时间。比如说内存的瓶颈,造成操作系统频繁的做swapping操作,就是一个可能的原因。

对于一个典型的系统,通常的建议值是:%usr%sys%wio%idle6025015

21.IO所占用的CPU使用率

如上所述,在此记录%wio值。

如果%wio较高,有条件的话可以进一步分析一下。

使用sard命令观察各个设备的状态。通常一个设备的%busy>50%,则说明可能存在

IO瓶颈。另外一个标志是其avwait>avserv。

另外,系统中各个设备的使用应该比较均衡。检查哪些设备使用率明显高于其他设备。

如果该设备是存放用户数据库数据,那么可以考虑建议用户将这部分数据尽量分散到多个设备上。如果是操作系统盘,需要关注是不是在做大量的swapping操作(内存瓶颈,sar-w)。

22.空闲的物理内存(#top)#top

在memory:一行有xxxxxkfree一项。

23.交换区使用情况(#swapinfoatm)

#swapinfoatm

MbMbMbPCTSTART/Mb

TYPEAVAILUSEDFREEUSEDLIMITRESERVEPRINAME

dev2560025600%0-1/dev/vg00/lvol2reserve-559-559

total2560559201*22%-0-

另外需检查,如果用户的物理内存比交换区大,需确定swapmem_on核心参数已设置

为1.

24.查看系统CPU个数,内存数量

此信息已收集在/tmp/hp/info.out文件中,亦可在SAM中查看命令序列:#sam->performancemonitors->systemproperties

友情提示:本文中关于《HP设备预防性巡检报告模版V1》给出的范例仅供您参考拓展思维使用,HP设备预防性巡检报告模版V1:该篇文章建议您自主创作。

来源:网络整理 免责声明:本文仅限学习分享,如产生版权问题,请联系我们及时删除。


HP设备预防性巡检报告模版V1》由互联网用户整理提供,转载分享请保留原作者信息,谢谢!
链接地址:http://www.bsmz.net/gongwen/665749.html
相关文章