学術実験で使われている世界規模のグリッドコンピューティングシステムに参加している計算機センターにおいてそのシステムの運用、保守を行った。
センターは1万CPUコア, 10PBのディスクを持つ規模でこれらのシステムにおいて外部から送られてくるタスクを処理しデータの管理を行っている。
このシステムに於いて、これまでもAnsibleやPuppetを用いたシステムのインストールが行われていたが統一されたものではなく、その都度システムのために用意するような悲惨な状態であった。
これに対してセンター全体で使えるフレームワークを作成し、その中でPuppetなどを統一的に扱い見通しの良いシステムに作り変えた。
また、これに伴い各システムの監視、テストなども整備しなおし安定性を大幅に向上させた。
このシステムに対して外部リソースであるGoogle Cloud Platformのリソースを追加しリソースの増加を簡単に出来るシステムを構築した。
これにより、物理的にオンプレミス施設だけでは不可能な量のタスクを処理出来るようになった。
参考URL: https://www.epj-conferences.org/articles/epjconf/abs/2020/21/epjconf_chep2020_07034/epjconf_chep2020_07034.html