クラウド上のGPU基盤について、設計・構築・運用を一気通貫で担当。Slurm運用設計とIaC/運用自動化を軸に、公平なGPUリソース配分・問い合わせ削減・構築リードタイム短縮を実現した。
⸻
プロジェクト概要
1. 目的・背景
• 生成AI/機械学習ワークロード向けに、拡張性・再現性・可用性の高いGPU実行基盤を提供。
• 多数ユーザが同時利用する前提で、公平性・運用効率・変更容易性を確保。
2. 規模感・チーム構成・担当役割
• 体制:インフラ/ネットワーク/セキュリティ横断の少人数チーム。
• 役割:
• 基盤アーキテクチャ設計・環境構築(クラウドIaaS、GPUノード、OS)。
• Slurmの運用ルール検討、QA対応。
• 運用標準化(マニュアル、QAナレッジ)、問い合わせ一次対応の仕組み化。
• ネットワーク/セキュリティ機器(Palo Alto, Cisco SW)の変更管理。
• IaC(Terraform)導入と自動化パイプライン整備。
• ベンダコントロール(機器故障時の切り分けから対応完了まで)。
3. 使用技術・開発/運用環境
• OS:Ubuntu
• スケジューラ:Slurm
• IaC:Terraform
• 自動化:Power Automate
• ネットワーク/セキュリティ:Palo Alto, Cisco スイッチ
• ドキュメント:運用手順書、ジョブ投入マニュアル、QAナレッジ
⸻
取り組んだ課題
1. 多数ユーザ間の公平なGPU配分
• 課題:占有・取り合い・待ち時間の偏り。
• アプローチ:Slurmのアカウント/QOS/fairshare設計、利用ルール策定、分割キュー運用。
2. ジョブ投入不可などの問い合わせ多発・属人化
• 課題:同種問合せの反復、担当依存のトラブル対応。
• アプローチ:ジョブ投入マニュアル整備、QAナレッジ化、一次切り分けフロー明文化。
3. 問い合わせ受付~対応の手作業負荷
• 課題:受付経路がバラバラ、重複・抜け漏れ。
• アプローチ:Power Automateで受付フローを自動化(起票→分類→担当アサイン)。
4. GPU/機器故障時の対応ばらつき
• 課題:切り分け手順の不統一、故障対応長期化。
• アプローチ:故障対応マニュアル整備、ログ採取・一次診断の定型化、ベンダ連携プロトコル明確化。
5. NW機器の変更とOS更新の安全性
• 課題:稼働中の商用機器への設定変更になるため顧客影響(リスク)を最初にする必要があり、詳細な調査と安全を担保した工事をする必要があった。
• アプローチ: 過去工事の洗い出し、保守ベンダ問い合わせ、公式ドキュメントを元にした工事手順書作成
6. 顧客要望ごとの設定差分管理/環境引き渡しリードタイム削減
• 課題:手作業構築で稼働がかかっており、顧客引き渡しまでに時間を要していた
• アプローチ:Terraform導入で定義のコード化・パラメータ化、再現性の確保。
⸻
取り組みの成果
• 公平性向上:Slurmポリシー最適化で、待ち行列の偏りと占有を抑制。
• 問い合わせ削減・初動高速化:マニュアル/QA整備+受付自動化で一次対応の標準時間を短縮。
• 構築リードタイム短縮:Terraformにより環境引き渡しまでの期間を大幅に短縮(再利用可能なモジュール化)。
• 運用品質向上:故障対応の定型化でMTTRを短縮、ベンダ調整のリードタイムも短縮。
• 変更リスク低減:NW機器の変更・OSアップデートを手順化し、影響範囲の可視化とロールバックを確保。
• 顧客満足度向上:要望に応じたSlurm/Ubuntu設定変更を迅速に反映し、利用体験を改善。
⸻