【機器構成】
NEC ExpressServer 50台
fujitsu OYX-1 Server 50台
Cisco Catalyst3750 Switch 50台
Alied Telesis 8台
<サーバー・OS>
Solaris8,10/RHEL6/CentOS/HP-UX
<DB>
ORACLE
<NW>
Cisco Catalyst3750/Alied Telesis
<ポジション>
サブリーダ兼メンバー
<規模・人数>
要員数:5名(PJ全体:30人)
【プロジェクトの概要】
・防衛省の艦艇武器システムの開発環境におけるサーバやNW機器の運用・保守整備
・プログラム開発やテスト時に不具合が生起した場合に、インフラかアプリ側のどちらに起因する問題なのか調査を実施
【業務内容1】
・概要:サーバーの稼働状況確認及びログ監視、チューニング
・課題:Zabbixなどのリソース監視ツールを導入していなかったので、CPU・メモリ・ハードディスクの使用率を監視する別の方法を探す必要があった。
・工夫:
➀自動監視を行うBashシェルスクリプトを使用
➁各リソースの使用率のしきい値を80%に設定し、しきい値を超えたリソースに関して、エラーログが出力されるといった内容
・課題解決:不具合が生起したサーバの原因が何によるものなのかログを確認することで限定し、処置が可能となった。
【業務内容2】
・概要:サーバ月次バックアップ(バックアップデータからの復旧後、各種パラメータ変更)
・課題:サーバOSが起動できない時に、復元用のバックアップデータが存在せず事前に取得する必要があった。
・工夫:
➀バックアップ取得を忘れないようにサーバ導入時、AcronisやMondoRescueといった各社が提供しているツールを活用し、バックアップの取得の徹底
➁各NICに関連付けられている/etc/sysconfig/networkscripts/配下の設定ファイルおよび/etc/hostnameのパラメータ変更
・課題解決:意図しないサーバの不具合に対し、迅速に復旧を実施することができ、システム運用に影響を最小限に留めることができた。
【業務内容3】
・概要:障害発生時の対応(障害の切り分け、原因調査、物品請求、復旧作業)
・課題:どこのレイヤーで生起している障害なのかの切り分けが困難であり、システムを正常時に戻すまでに時間を要した。
・工夫:
➀OSI参照の上位レイヤであるアプリケーション層から原因調査を実施し、不具合が生起しているアプリケーションが動いている基盤のサーバが正常に動作しているか(top,ps -ef,systemctl statusコマンド)、またそのサーバとの通信先において正常な通信ができているのか(ping,tracerouteコマンド)確認
➁サブリーダーとしてのマネジメント:システムの不具合時に現状でできる機能の洗い出しや縮退運用、故障復旧へのプロセスをメンバー全体に指示を行い、システム運用の継続に貢献した。
・課題解決:生起した不具合を探求し、システム運用への影響範囲を限定することで、実際の運用を止めることなく、継続させることができた。
【業務内容4】
・概要:運用マニュアルの作成(システム起動停止、よくある不具合の処置)
・課題:メンバーの入れ替えが多い時に、不具合生起時に誰であってもシステムの不具合から復旧作業を可能にする必要があった。
・工夫:マニュアルの作成にあたって、文字だけの説明だと理解が困難なので、図や写真を用いて、文字の説明とリンクさせるように作成
・課題解決:故障が発生した場合においてもスムーズなシステム運用に戻せるように不具合時の運用マニュアルを作成し、MTTRの縮小に貢献出来ました。