IBM小型机巡检报告
1、机器型号#unameuMIBM,7029-6E3IBM,01100550A2、检查系统硬件设备故障灯是否有亮3、系统错误报告
#errpt-dH-TPERM//硬件的错误报告
IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTIONFE4C0250530085308PHsysplanar0UNDETERMINEDERRORBFE4C0250529091308PHsysplanar0UNDETERMINEDERROR#errpt-dS-TPERM//软件的错误报告#errpt-aj*******|more//具体的错误信息
#errpt-dH-TPERM>/tmp/hwerror.log//可以把错误的报告存成一个文件3、有否给root用户的错误报告#mailMail[5.2UCB][AIX5.X]Type?for
help."/var/spool/mail/root":5messages3new5unreadU1rootThuMay1509:5324/884"diagelamessagefromp615”U2rootFriMay1604:0724/884"diagelamessagefromp615"
>N3rootSatMay2413:0823/874"diagelamessagefromp615"5、检查hacmp.out,smit.log,bootlog等#lssrc-gcluster/#>lssrc-gclusterSubsystemGroupPIDStatusclstrmgrEScluster16334active
一般上hacmp.out的位置:/usr/sbin/cluster/或者/tmp/,然后找到最近的hacmp.out文件,察看有没有错误信息6、文件系统检查#df-k
Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd413107210156823%22684%//dev/hd214417923125698%3605611%
/usr/dev/hd9var13107211704811%4182%/var看看有没有超过90%使用率的,建议用户改善7、逻辑卷有否"stale"的状态
#lsvg-lrootvgLVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot111closed/syncdN/A
hd6paging441open/syncdN/Ahd8jfslog111open/syncdN/Ahd4jfs111open/syncd/hd2jfs11111open/syncd/usrhd9varjfs111open/syncd/var如果系统还有其他卷组,也需要察看8、内存交换区的使用率是否超过70%#lsps-a
PageSpacePhysicalVolumeVolumeGroupSize%UsedActiveAutoTypehd6hdisk0rootvg512MB1yesyeslv9、系统性能是否有瓶颈#topas#vmstat1
10kthrmemorypagefaultscpurbavmfrerepipofrsrcyinsycsussyidwa
001100294086180000004602750199000110031408616000000156254109900011003140861600000036288400990#iostat110
tty:tintoutavg-cpu:%user%sys%idle%iowait0.0394.00.00.0100.00.0Disks:%tm_actKbpstpsKb_readKb_wrtnhdisk00.00.00.000
hdisk10.00.00.000cd00.00.00.000
10、网络与通讯检查#netstatinNameMtuNetworkAddressIpktsIerrsOpkts
OerrsCollen01500link#20.9.6b.3e.6.ac1964053400en0500192.168.0192.168.0.111964053400lo016896link#1267041300lo016896127127.0.0.1267041300#netstat-rn//察看路由情况Routing
tablesDestinationGatewayFlagsRefsUseIfExpGroupsRouteTreeforProtocolFamily2
(Internet):127/8127.0.0.1U7142
lo0--192.168.0.0192.168.0.11UHSb00en0--=>#vi/etc/hosts//察看hosts文件有否特殊的定义#ping****
#lsattr-Elinet0//路由的检测authm65536AuthenticationMethodsTruehostnameh24Host
NameTruegatewayGatewayTrueroutenet,,0,172.16.23.81RouteTruebootup_optionnoSerialOpticalNetworkInterfaceTrue
rout6FDDINetworkInterfaceTrue11、有否符合要求的系统备份第一次去可以先询问客户关于备份的策略
#ls-l/image.data//看看系统有没有备份的image文件,记录最后备份日期-rw-r--r--1rootsystem9600May1917:31/image.data#lsvg-lrootvg//察看有否符合要求的数据备份和保护LV
NAMETYPELPsPPsPVsLVSTATEMOUNT
POINThd4jfs111open/syncd/hd2jfs11111open/syncd/usrhd10optjfs111open/syncd/optoraclelvjfs2801601open/syncd/oracle
loglv00jfs2log111open/syncdN/Atestlvjfs10201closed/syncd/tmp/test
如何察看数据保护方式RAID10/RAID5,RAID的Hotspare属性是否打开
#smittyssaraid?Change/ShowAttributesofanSSARAIDArray检查EnableUseofHotSpares属性是否为YES12、系统Dump设置是否正确#sysdumpdevlprimary/dev/hd6secondary/dev/sysdumpnull
copydirectory/var/adm/rasforcedcopyflagTRUEalwaysallowdumpFALSEdumpcompressionOFF
#sysdumpdevPp/dev/hd6s/dev/sysdumpnull#sysdumpdev-P-c
13、HACMP测试#/usr/sbin/cluster/diag/clconfig-v"-tr"//ClusterVerification输出结果无Fail
#/lssrc-gcluster
14、maxpout,minpout系统参数如果系统中运行了HACMPsmittychgsysy,将High/Lowwatermark从0/0修改为33/24#lsattr-Elsys0|grepmaxpout
//maxpout用途:对文件指定未决I/O的最大数目值:缺省值:0(不检查);范围:0到n(n应该是4的倍数加1)
#lsattr-Elsys0|grepminpout//指定一个基点,在该基点处,已达到maxpout的程序可以继续写入文件值:缺省值:0(不检查);范围:0到n(n应该是4的倍数,且大于或等于4小于maxpout)15、syncd参数#grepsyncd/sbin/rc.boot//sync()被syncd调用的间隔时间nohup/usr/sbin/syncd10>/dev/null2>&1&
值:缺省值:60;范围:1到任何正整数显示:grepsyncd/sbin/rc.boot或vi/sbin/rc.boot更改:更改在下次引导后有效,而且是永久有效。备用方法是使用命令kill来终止守护程序
syncd并用命令/usr/sbin/syncdinterval从命令行重新启动它。诊断:当syncd正在运行时,文件的I/O被阻塞了。调整:在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整
性对于HACMP而使syncdinterval明显缩小,会导致性能下降。更改命令为:#vi/sbin/rc.boot16、aio参数//异步I/O可调参数#lsdev-C|grepaio察看状态是否是available#lsattr-Elaio0minservers1MINIMUMnumberofserversTruemaxservers10MAXIMUMnumberofserversTruemaxreqs4096MaximumnumberofREQUESTSTruekprocprio39Server
PRIORITYTrueautoconfigavailableSTATEtobeconfiguredatsystemrestartTrue
fastpathenableStateoffastpathTrue#smitaio//可以更改参数
17、检查errdaemon,srcmstr是否正常运行#ps-ef|greperr#ps-ef|grepsrc18、系统硬件诊断#diag->DiagnosticRoutines->SystemVerification->AllResources->F7或者Esc+7
19、补丁程序PTF是否满足要求,当前系统补丁版本#oslevelr5300-04
#instfix-i|grepAllfilesetsfor5.3.0.0_AIX_MLwerefound
Allfilesetsfor5300-01_AIX_MLwerefound.Allfilesetsfor5300-02_AIX_MLwerefoundAllfilesetsfor5300-03_AIX_MLwerefound.Allfilesetsfor5300-04_AIX_MLwerefoundAllfilesetsfor5300-05_AIX_MLwerefound.#lscfg-vp//检查所有设备的微码
20、收集系统信息放到/tmp/ibmsupt#snap-ac//运行#snap-ac,生成文件snap+s/n.pax.Z
扩展阅读:IBM小型机巡检报告
河南建行IBM小型机日常维护
第一篇:日常维护部分
第二篇:故障处理部分
第1章AIX系统管理日常工作(检查篇)
1.1
常用的命令
CPUMemoryvmstat,psDiskNetwork标准UNIX命令(包vmstat,sar,ps括HP、SUN等)AIX详细输出AIX非常详细输出Tprofsyscalls,emstattopasiostat,sar,vmstat,netstat,nfsstatsvmon,rmsstrace,tracefilemon,fileplacetraceentstattrace,iptrace分析工具topastopastopas
1.2语法介绍
1.2.1vmstat:检查内存、CPU、进程状态
#vmstat26
kthrmemorypagefaultscpu
---------------------------------------------------------------rbavmfrerepipofrsrcyinsycsussyidwa
10281328127700000013237567651340
20281328127700000012733813199000
20281328127700000013231613199000
20281328127700000012031712699000
202813281277000000146316127990020281328127700000013031712599000
20281328127700000013531612799000
20281328127700000012931712499000
20281328127700000013330412799000
r:正在运行的进程b:被阻挡的进程
avm:活动的虚内存,单位4kbfre:自由列表,位4kbpo:页换出pi:页换入sy:系统占用CPUid:空闲CPUwa:等待的CPU
1.2.2sar:检查CPU、IO
例如:sar-u130sar-PALL110语法:
sar-[abckmqruvwyA]intevalrepetition-bbuffer活动-c系统调用-k内核进程统计.-m消息及信号量活动
-q正在运行的队列数及等待队列数-r页交换统计-uCPU利用-PCPU负载.1.2.3PS:检查进程状态命令
ps:
显示当前SHELL重所有进程ps-ef:
显示系统中所有进程,-f显示更详细信息ps-uoracle:
显示oracle用户进程psemoTHREAD:显示线程信息psau;psvg:
按使用时间显示进程(最近一次调用)psaux:
按使用时间显示进程(进程启动)
1.2.4svmon:显示进程占用内存
svmonG:显示系统占用内存
svmon-Ccommand_name:显示某个用户进程占用内存svmon-Ppid
显示某个进程占用内存svmonS:显示段占用内存
1.2.5iostat:显示磁盘IO
tty:tintoutavg-cpu:%useriowait
0.04.00.91.395.4
Disks:%tm_actKbps%sys%idle%
2.5tpsKb_readKb_wrtn
hdisk058.4218.341.2172920hdisk116.885.621.44280hdisk250.6223.955.6110020hdisk316.885.621.44280hdisk40.00.00.000hdisk543.4279.169.813960hdisk60.00.00.000hdisk716.427.220.201*6hdisk80.00.00.0hdisk99.4156.011.4hdisk1016.427.220.2cd00.00.00.0
netstat,entstat:显示网卡信息
netstaten0:显示en0信息netstats:显示网络信息netstat-m显示网络buffers.netstat-i显示网卡状态netstat-Ien01
显示eno网卡塞(1秒间隔)
no:显示tcpip参数设置
noa:
显示tcpip所有参数当前设置no-otcp_keepalivetime=7201*00设置tcp_keepalivetime等于3600000秒no-d恢复默认值
注:该方法在重启后失效
0007800136001.2.61.2.
1.2.8其它命令
检查文件系统df-k检查设备lsdev-C检查物理卷lspv检查交换区lspsalsps-s检查系统硬件配置lscfgvpprtconf检查软件lslpp-l操作系统版本检查oslevelruname-a操作系统补丁检查Instfixi|grepML检查系统盘的镜像lspvlrootvg检查逻辑卷lsvgo|lsvgil|more系统dump分区检查sysdevdumplsysdumpdev-ebootlistmnoraml-o系统引导顺序检查AIO参数检查lsattr-Elaio0IO参数设置smittychgsyssyncddaemon的数据刷新频率IBM双机检查more/sbin/rc.bootlssrcgcluster/usr/sbin/cluster/clstat-aerrpt|moreerrptdHerrpt-dSPsef|grepsrcmstPsef|greperrdemon系统日志检查系统关键进程检查
操作系统备份与恢复
1.3用SMIT备份
#smittymksysb进行系统备份
当COMMANDSTATUS页面中Command:OK出现后,表示备份成功。取出制作完毕的磁带,在磁带上的标签上注明备份机器的名称和序列号
1.4手工备份
#mksysbi/dev/rmt1.5恢复系统
#bootinfoe
检查系统所带的磁带机是否能启动系统,如果返回值是1,表示该磁带机支持启动系统,如果返回值是0,就是不支持。插入备份带,检查设备启动顺序:#bootlist-mservice-o
如果需要,将启动顺序改为从磁带启动:#bootlist-mservicermt0
重启机器,系统从磁带读数据,根据提示恢复系统。
故障处理部分
1.6收集故障信息对于判断诊断故障原因修复系统非常
重要
1.7系统故障记录(errorlog)
errdemon进程在系统启动时自动运行记录包括硬件软件及其他操作信息
故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析
errpt命令的使用(普通用户权限也可使用)#errpt|more列出简短出错信息
ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED107201*1000PHmem2Memoryfailure
9DBCFDEE0701000000T0errdemonErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日时分年
T类型:P永久;T临时;U未知永久性的错误应引起重视C分类:H硬件;S软件;O用户;U未知#errpt-dH列出所有硬件出错信息#errpt-dS列出所有软件出错信息#errpt-ajERROR_ID列出详细出错信息
#errpt-aj0502f666FailureCausesADAPTER
CABLELOOSEORDEFECTIVERecommendedActions
PERFORMPROBLEMDETERMINATIONPROCEDURESCHECKCABLEANDITSCONNECTIONSDetailDataSENSEDATA
000000000000000000000000000000000000000000000000
1.8控制面板上的LED代码
8位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码
4位代码通常是Exxx
3位代码通常为0yyy只看后3位
8位和4位代码可查看系统服务手册(ServiceGuide)
3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBusSystem)
闪动的888,系统崩溃硬件或软件原因造成按reset键会显示更多内容888-102一般为软件故障888-102-207例外系统会产生一个dump
888-102-xxx-0C9系统正在做dump,请等待888-102-xxx-0C0系统dump完成可关电重启888-103或105
硬件故障一般有SRN代码及位置代码
1.9SMS(SystemManagementService)故障记录
如何进入SMS菜单
当主控台出现键盘图标后(LED显示E1F1时)按1键选择"Utilities"
选择"ErrorLog",抄下8位故障代码在SMS中还可以更改系统启动顺序表1.10MAIL
系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查
修复系统会定时提醒root
1.11运行故障诊断程序(Diagnostic)对系统硬件进行检
查和诊断
当发现有硬件故障时应立即使用diag#diag
>选高级诊断AdvanceDiagnostic)>选问题诊断ProblemDetermination)或选系统检查SystemVerification)(选PD会对系统错误记录进行分析)
diag运行后会给出SRN代码故障设备名称及百分比地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析
友情提示:本文中关于《IBM小型机巡检报告》给出的范例仅供您参考拓展思维使用,IBM小型机巡检报告:该篇文章建议您自主创作。
来源:网络整理 免责声明:本文仅限学习分享,如产生版权问题,请联系我们及时删除。