您的当前位置：首页正文

IBM P750小型机日常维护手册

来源：小奈知识网

IBM P750小型机日常维护手册之五兆芳芳创作

一、办事器硬件运行状态查抄

当办事器处于启动和正常任务状态时，其前面板上的状态灯（与电源灯并排）和各硬盘的状态灯（一排小灯，与各硬盘位置一一对应）应显示为绿色.

当办事器的状态灯出现橙黄色时，说明有硬件告警，此时要查抄办事器的电源、接线、硬盘等.如果有硬件毛病则需要立即进行改换和更正，如果查不出具体问题，则需要联系相关专家进一步诊断.

当硬盘任务正常时，与各硬盘对应的硬盘灯会呈绿色，如无读写，则绿灯一直亮，如该硬盘有读写操纵，则绿灯会不法则闪烁，当硬盘损坏时，则硬盘状态灯将熄灭，或呈闪烁状态：以1～3秒的频率有纪律地、不断地闪烁.

如果发明有办事器硬件状态灯不正常的情况，请实时联系我公司工程师，以便实时进行诊断并解决毛病. 二、 HMC（硬件办理平台）办理与操纵 HMC的两种拜访途径：

1、在机房直接通过显示器和键盘进行办理维护等相关操纵 2、通过

web远程拜访，登录HMCweb办理界面，拜访地址为：https://

1、登录HMC

1.1 浏览器拜访连接HMC后，首页界面如下图所示. 1.2 点击下图所示链接，进入HMC验证登录界面. 1.3 输入用户名与口令，登录HMC. 用户名：hscroot 口令：

1.4 成功登录到HMC办理界面如下图所示.

2、注销HMC

在HMC console右上角有（hscroot|help|log off）链接，单击log off，会出现如下图所示注销界面：

选择Log off，系统前往到HMC初始登录界面状态.

3、重启HMC

左边导航栏中选择HMC Managementshut down or Restart，如

下图所示，对HMC进行正常重启及关机操纵. 请谨慎对HMC进行关机和重启操纵！

4、状态栏功效

状态栏位于HMC左下角位置，如下图所示，担任监控并反应办理系统资源状态和HMC状态.

单击每个图标状态可以列出详细状态，你可以查到更详细的帮忙信

息：

：不法操纵，如果任何被办理的主机执行了不法操纵，这个图标将会变亮.

：黄灯警告,如果任何被办理的主机有错误并有黄灯被点亮，这个图标也将会变亮

：报错日志：日志中有报错信息，这个图标将会变亮，此项与：摘要，摘要中会将有用信息做统计并显示在任务栏中.

5、 Service Management

导航栏中Service Management强大的办理功效给用户日常维护提供了更复杂直不雅的界面，如下图所示，

但日平时最经常使用的子项是Manage Serviceable Events，如下图步调可以对HMC所办理的设备进行日常错误实时直不雅的不雅察，以确保IBM小型性能正常任务，下图就是根本的操纵办法图示： Service Management

Manage Serviceable Events

6、 Service Plans分区办理与操纵

?? ??如何查抄小型机资源配置：

如上图白色标注所示，选中所需查抄主机（备注：请不要同时选中多台主机及多个分区）在下拉菜单中选中“Properties”，打开参数窗口，通过“Properties”可以查抄主机运行状态，CPU内存，I 等重要硬件系统参数，如下图所示.

同理，在分区区域中先中每分区后的Properties选项，便可以直不雅便利的掌握分区状态和资源配置信息.

?? ??如何开关机及激活分区：

关机.

开机.

Operation项中主要包含小型机及分区开关机，及消除报警灯这两项功效，如虽要对小型机下电操纵，请先将图

中的分区Deactivate（建

议：最好在操纵系统中依照正常流程将操纵系统shutdown），最后再将主机power??off.

注意：非特殊情况，无专业人员指导，严禁进行开关机操纵！ 6.3 手动消除黄灯警告

如下两图所示， Operations中LED status，及Deactivate Attention LED两项中所指，针对不合分区或主机所报出的警告黄灯，进行特定的消除黄灯操纵.

6.4 如何打开控制终端（Terminal Window）

在HMC上对分区操纵系统进行操纵，可以通过度区下拉菜单Console Window

Open Terminal Window对选中分区进行操纵，如图所示，操

纵界面如同telnet界面.

在HMC中同一分区只允许打开一个Terminal Window，如试图打开第二个窗口，系统提示如图17所示界面.

三、 AIX系统日常维护 1、查抄系统的错误记实

很重要，应该定期查抄，如发明有硬件（H）类型的报错，应该实时存眷.

在系统运行时，一些系统错误会记实在errlog 中，其中有些错误还会在终端上显示.

查抄错误日志可用以下命令： #errpt|more

查抄系统所有的记实

IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION

E85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR

2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER

9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON

1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF

1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION 其中

IDENTIFIER 为错误编号，当需要查抄详细信息时常会用到.

TIME STAMP 为时间标签，它记实的是出错时间，其格局:月月日日时时分分年年

T 为Type , 它记实的是错误类型

P ：为永久错误，需引起注意 T ：为临时错误.

C 为Class, 它记实的是错误种类，如

H : Hardware S : Software

O : Errloger command messages U : undetermined

RESOURCE_NAME 为错误来源 DESCRIPTION 为错误描述

#errpt aj 查抄系统详细记实内容其中IDENTIFIER为错误编号，如 #errpt aj 0426104399 #errpt dH

查抄系统所有的硬件出错记实

2、日常查抄办事器状态的项目及其相关命令

2.1 运行lsdev 命令配以各类参数，所列各类设备状态都应为

Available. #lsdev –C –H –S a

列出系统中可用设备. 列出系统中的所有CPU.

#lsdev –Cc processor

#lsdev –Cc memory #lsdev –Cc disk

列出系统中的所有内存. 列出系统中的所有硬盘. 列出系统中的所有网卡

列出系统中的所有SCSI卡.

#lsdev Cc adapter | grep ent #lsdev Cc adapter | grep scsi #lsdev Cc adapter | grep ssa 2.2 lspv命令 #lspv

列出系统中的所有SSA卡.

显示系统中可用的PV.

显示hdiskn的具体信息.

#lspv hdiskn

#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息. 2.3 lsattr命令

# lsattr –E –l mem0 列出系统中内存mem0的大小，本项目中内存有4GB.

2.4 lsvg命令 #lsvg

列出系统中所有的vg.

列出rootvg的详细信息.

#lsvg rootvg

#lsvg –o 列出激活的vg 2.5 oslevel命令 #oslevel

显示操纵系统版本信息.

2.6 netstat命令 #netstat –in 有.

2.7 diag命令

通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件，检测结果为 “No trouble found ”显示各部分任务正常.

lsps –a 查抄PAGING SPACE的使用情况，如果使用率超出70%，就需要采纳措施.

2.9查抄LV（卷）状态

lsvg –o | lsvg –il | grep –i stale查抄有无stale的lv，如果输入该命令之后有输出结果，就需要采纳措施

#mail，查抄有否发给root用户的错误陈述(mail). 3、查抄文件系统

查抄有没有“满”的文件系统.文件系统满可导致系统不克不及正常任务，尤其是AIX的根本文件系统.

如/ (根文件系统)满则会导致用户不克不及登录. # df k

(查抄AIX的根本文件系统)

显示系统中各网卡的配置.可查抄网卡的IP配置好了没

Filesystem 1024blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% /

/dev/hd2 614400 28068 96% 22967 15% /usr /dev/hd9var 8192 4540 45% 649 32% /var /dev/hd3 167936 157968 6% 89 1% /tmp /dev/hd1 16384 5332 68% 1402 35% /home

除/usr文件系统，其他文件系统都不该太满，一般不超出80%.

4、性能监控与调优 4.1 通过topas来不雅察

topas能够将系统的全局信息，包含CPU、内存、磁盘、网络、文件系统、事件队列、文件等信息，排列在一个统一的界面上进行展示. bash4.3# topas

Topas Monitor for host:localhost EVENTS/QUEUES FILE/TTY

Wed Feb 22 10:42:00 Interval:2 Cswitch Readch Syscall Writech

CPU User% Kern% Wait% Idle% Reads Rawin Writes Ttyout Forks Igets

Network BPS IPkts OPkts BIn BOut Execs Namei Runqueue Dirblk Waitqueue

Disk Busy% BPS TPS BRead BWrit MEMORY

PAGING Real,MB Faults % Comp

FileSystem BPS TPS BRead BWrit Steals % Noncomp PgspIn % Client PgspOut

Name PID CPU% PgSp Owner PageIn PAGING SPACE

PageOut Size,MB Sios % Used % Free NFS (calls/sec)

SerV2 WPAR Activ CliV2 WPAR Total SerV3 Press: \"h\"help CliV3 \"q\"quit SerV4 4.2 通过命令vmstat 1 来不雅察.

kthr memory page faults cpu r b avm fre re pi po fr sr cy in sy cs us sy id wa

命令解析：vmstat 命令的输出可以反应系统整体运行状况，包含cpu、内存、虚拟页面、系统进程和系统调用情况.

查抄CPU是否为瓶颈,辨别查抄CPU的四项数值和kthr的两项数值. 查抄MEM是否为瓶颈,辨别查抄Memory的两项数值和Page 的六项数值.

4.3 通过命令 sar –mu –P ALL 来不雅察.

命令解析： sar可以用来收集反应系统运行状况，在这里主要是查抄CPU的运行状况，CPU是否负载均衡,是否存在分派不均的情况. 4.4 通过命令ps gv | more来不雅察.

PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND

0 A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper 1 A 1:33 103 78952 79044 32768 25 36 0.0 29.0 /etc/init 命令解析：ps可以用来查抄进程的当前状态.在这里通过参数的配搭，可以不雅察目前正在运行的进程所耗的时间,CPU和memory 量.其中，%CPU暗示进程所占用的CPU资源情况，%MEM暗示进程所占用的内存情况.主要查抄是否有标示为的僵尸进程耗用系统资源，以及informix 数据库的oninit进程的系统消耗情况. 4.5 通过命令iostat 1 –d hdiskX不雅察磁盘

在机械上用dd命令进行磁盘阵列的写操纵校验，与此同时用iostat 1 –d hdiskX不雅察磁盘.

Disks: % tm_act Kbps tps Kb_read Kb_wrtn

命令解析: iostat可以用来查抄系统的 I/O的输入输出情况，在这里主要查抄阵列上的硬盘的每秒读写量，同时预算磁盘阵列读写速度. 4.6 通过命令netstat –a 进行查抄.

Active Internet connections (including servers)

Proto RecvQ SendQ Local Address Foreign Address (state) 命令解析: netstat可以用来查抄系统的网络情况，在这里主要是查抄网络客户端连接的情况和开销，查抄参数为state，如有死连接，state状态为fin_wait, 这样耗用系统网络资源，从而导致网络性能下降组成瓶颈.

以上所有命令及参数的相关寄义和详细信息，请参考AIX命令大全.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文