■2018年1月 - 在籍中
自社システムの大規模なデータベース群の運用管理。
また、ansibleを用いたデータベースの構築の自動化やベンダーコントロール、業務委託への指示等を担当。
oracle社のODAでのアプライアンス製品からIA化されたデータベースへの移行を行っている。
2018/6~
構築と運用を課として別ける体制変更があり、運用としてDBチームに所属
社員5人、業務委託13人のチームリーダーとして職務を行う。
主なミッションとしては、DBの運用や性能分析、業務改善や障害対応を行う。
(DB数 600以上、ms単位での性能要求、100T以上の大規模DBを含む)
個人としてはチームリーディングで、チームの作業管理、方向性決め、他部署グループへの折衝を行う。
性能分析や運用改善等、業務アプリ側との連携や改善を行いスキルを発揮する事が多い(プレイングリーダー)
oracle、postgres、mysqlを使用
replicationやdataguardを使用したデータ同期
成果としては、会社として運用改善として運用部署の切り出しを行い全く新しい運用組織の構築をスタートした。
その中でDB領域として先頭に立ち運用改善を行った。
障害が多く発生する環境だったため、何が起きているかを分析し、トップ2の障害内容を把握、そこには性能問題とHW故障が大部分をしめており、そこにメスを入れた。
体制変更に伴い、また入社してすぐにリーダーとして専任されたため、外部からの知見として俯瞰してシステムを見直した所、上記トップ2を分析するに到った。
そこで、まずそもそもプロセス管理ができてないない、設計の俯瞰的な確認ができていない部分が組織的にあったため組織変更のタイミングをチャンスと考え、設計部署への牽制関係を持つ組織として、システムをブラッシュアップする動きを見せた。それによりチューニングやキャパシティ管理など新しいプロセスも副次的に生み出し、よりシステム運用に向けての体制を整える事ができた。
HW故障に関してはは予期せぬダウンを検知した際に自動で再起動を行う仕組みを作った。
これはHWは必ずダウンする物、確実に壊れる物だが、そこから影響を最小限にするための策として観点を変えての対策を行った。
(早期復旧化、作業の自動化)
それまではエマージェンシーレベルの障害は年に1度起きていたものを、0に抑えている。