内閣府のINNOプロジェクト(https://www.inno.go.jp)で採用された「GPT-3相当の大規模言語モデルの事前学習済みモデルの公開」プロジェクトの実施。
【挑戦の背景と動機】
近年、自然言語処理AIに使われるTransformerモデルは大規模化が進み、米国「GPT-3」で1750億パラメーター、中国「悟道2.0」で1兆6000億パラメーターと、既に国際的にはパラメーター数競争の時代に突入している。
しかるに、日本語を扱う自然言語処理AIにおいては、同種の超大規模モデルは存在せず、日本におけるAI技術の競争力維持のためにも、自由に使える大規模モデルの公開が望まれている。
【実現したい目標】
「GPT-3」相当の超大規模Transformerモデルの日本語版を作成し、学習済みモデルを公開する。
当面は、30億パラメーター程度(GPT-3 2.7B相当)のモデルを目標とする。
【挑戦のワークフロー】
Transformerモデルの作成は、以下のステップに従って行われる。
1. 学習用データの用意
2. 学習用データのエンコード
3. モデル定義プログラムの作成
4. モデルのトレーニング
【各工程での工数】
1.
上記ステップのうち、1は、既に完了しているデータ収集の転用と、研究目的で公開されているコーパス(※文章データセット)を組み合わせて行う。
データサイズが大きく、エンコード用サーバーへの転送へ時間がかかることを考慮し、数日間~1週間程度で完了する予定。
2.
2は、文章データのクリーニング及び、分かち書きとエンコードという、学習のための前準備である。これは大量のメモリーとCPUを搭載したサーバー上で行う。
ここでもデータサイズが大きいため、数日間程度必要となる予定。
3.
3は、超大規模Transformerモデルの定義であり、最終的なモデルの性能を規定する重要なステップである。
特に、次ステップがコストのかかる工程であるため、学習の破綻によって次ステップをやり直さなければならなくなることを避けるために、入念なPoCと実験的学習を経て、最適なモデルを作成したい。
このステップには、GPUを搭載した学習サーバーで、0.5ヶ月~0.75ヶ月必要となる予定。
4.
4は、超大規模Transformerモデルの学習であり、最もコストと時間がかかる工程である。
この工程は、時間とコストをかければかけるほど性能の良いモデルを作成する事が出来るので、出来るだけ長く取りたいが、異能vation破壊的な挑戦部門の挑戦期間に合わせて切り詰める必要がある。
以上のプロジェクトを実施し、成果物を作成し、公開した。