スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発について
[23/05/22]
提供元:PRTIMES
提供元:PRTIMES
国立大学法人東京工業大学(注1)(以下、東京工業大学)、国立大学法人東北大学(注2)(以下、東北大学)、富士通株式会社(注3)(以下、富士通)、国立研究開発法人理化学研究所(注4)(以下、理化学研究所)は、「富岳」政策対応枠において、スーパーコンピュータ「富岳」を活用した大規模言語モデル(Large Language Model, LLM)(注5)の分散並列学習手法の研究開発を2023年5月から実施します。
大規模言語モデルは、ChatGPT(注6)をはじめとする生成AIの中核として使用されている深層学習のAIモデルであり、4者は今後今回の研究開発の成果物を公開することで、アカデミアや企業が幅広く使える大規模言語モデルの構築環境を整え、国内におけるAIの研究力向上に貢献し、学術および産業の両面で「富岳」の活用価値を高めることを目指します。
【背景】
ChatGPTに代表される大規模深層学習モデル(基盤モデル)は、インターネットやスマートフォンのように社会全体のあり方を変える革新的な技術であり、Society5.0における研究開発、経済社会、安全保障などのあらゆる側面から基盤技術として期待される一方で、基盤モデルの性能を高めるためには大量データを効率的に処理する高性能計算資源が不可欠です。
そこで、東京工業大学、東北大学、富士通、理化学研究所は、基盤モデルの研究開発における計算環境を整備するため、「富岳」政策対応枠において、「富岳」を活用した大規模言語モデル分散並列学習手法の開発に向けた研究開発を行います。
【実施期間】
2023年5月24日から2024年3月31日まで (「富岳」政策対応枠の利用期間)
【各機関・企業の役割】
今回開発する大規模言語モデル分散並列学習手法は、スーパーコンピュータ「富岳」の超大規模な並列計算環境において大規模言語モデル学習を効率良く実行する技術となります。各機関・企業の役割は以下の通りです。
東京工業大学:全体総括、大規模言語モデルの並列化および高速化
東北大学:学習用データの収集、モデルの選択
富士通:大規模言語モデルの高速化
理化学研究所:大規模言語モデルの分散並列化・通信高速化、大規模言語モデルの高速化
【今後について】
今後4者は、日本の研究者やエンジニアが大規模言語モデルの開発に活用できるように、今回の「富岳」政策対応枠で得られた研究成果を、2024年度に、GitHub(注7)やHugging Face(注8)を通じ公開する予定です。また、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、効率的な方法が創出され、次世代の革新的な研究やビジネスの成果に繋がることが期待されます。
さらに、ものづくりをはじめとする産業分野などへの応用を想定したマルチモーダル化のためのデータ生成手法および学習手法の開発を行う国立大学法人東海国立大学機構 名古屋大学(注9)や、大規模言語モデル構築のためのデータおよび技術提供を行う株式会社サイバーエージェント(注10)との連携も今後検討していきます。
【エンドースメント】
・東京工業大学 学術国際情報センター 教授 遠藤 敏夫
本学・理研によるスーパーコンピュータ「富岳」を活用した大規模言語モデルの並列化・高速化、富士通の「富岳」向け高性能計算基盤ソフトウェアの開発とAIモデルの性能チューニング、東北大学の自然言語処理の技術を融合させていきます。富士通との連携においては、スモールリサーチラボ「富士通次世代コンピューティング基盤協働研究拠点」も活用してまいります。今回の取り組みにより、「富岳」上で大規模分散深層学習を実施するための環境が整備されることで、我が国のAIの研究力向上への貢献が期待されます。
・東北大学 情報科学研究科システム情報科学専攻 教授 乾 健太郎
学習データの情報に透明性があり、日本語データを中心にした、商用利用も可能なオープンソースの大規模言語モデルを構築します。学習データのトレースを可能にすることによって、ブラックボックス問題、バイアス、誤情報・ハルシネーション等に関する科学的検証に耐える研究が可能になると期待されます。東北大で培った言語処理モデルの深層学習や日本語処理を考慮した言語モデル構築の知見も活かしながら大規模モデル構築の試行錯誤を重ね、得られた知見を広く共有することによって、我が国のAI研究力向上へ貢献してまいります。
・富士通株式会社 執行役員EVP 富士通研究所長 岡本 青史
当社が有する大規模並列コンピューティングとAIの融合技術を活用することで、スーパーコンピュータ「富岳」を用いた大規模言語モデルの研究開発に貢献するとともに、そこで得られる先進的AI技術や知見を当社のAIプラットフォーム「Fujitsu Kozuchi (code name) - Fujitsu AI Platform」を介して提供することで、画期的なアプリケーションの開拓を促進し、持続可能な社会の実現に貢献してまいります。
・理化学研究所 計算科学研究センター 松岡 聡 センター長
「富岳」で開発された「A64FX」(注11)は、SVEと呼ばれるAIの加速機能を備えていますが、その能力を最高に発揮し、かつ一般的なAIアプリで活用するには、ソフトウェアの開発と最適化が不可欠です。今回の共同研究を通じて、本計算科学研究センターの研究者を含む、我が国の言語モデルや計算機科学の研究者が結集して、スーパーコンピュータ「富岳」上で大規模言語モデル構築基盤の高度化に取り組むことが重要です。これにより、本センターとしてSociety 5.0の実現に貢献していく所存です。
【課題名】
「富岳」を活用した大規模言語モデル分散並列学習手法の開発 (課題番号:hp230254)
【商標について】
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
【注釈】
(1)国立大学法人東京工業大学:本部 東京都目黒区 学長 益 一哉。
(2)国立大学法人東北大学:本部 仙台市青葉区 総長 大野 英男。
(3)富士通株式会社:本社 東京都港区 代表取締役社長 時田 隆仁。
(補足:掲載先メディアや閲覧環境の仕様によっては、「隆」の文字が正しく表示されない場合があります。正しくは、「隆」の「生」の上に「一」が入ります。)
(4)国立研究開発法人理化学研究所:本部 埼玉県和光市 理事長 五神 真。
(5)大規模言語モデル:数億〜数十億のパラメータを持ち、大量のデータを用いて事前学習されたニューラルネットワークのことを指す。最近では言語処理におけるGPTや画像処理におけるViTなどが代表的な大規模学習モデルとして知られている。
(6)ChatGPT:OpenAIが開発した自然言語処理のための大規模言語モデルで、対話システムや自動文章生成などのタスクに高い精度で対応。
(7)GitHub:世界中でオープンソースソフトウェアの公開につかわれているプラットフォーム。https://github.com/
(8)Hugging Face:世界中でAIのデータセットを公開するのに使われているプラットフォーム。https://huggingface.co/
(9)国立大学法人東海国立大学機構 名古屋大学:本部 名古屋市千種区 総長 杉山直。
(10)株式会社サイバーエージェント:本社 東京都渋谷区 代表取締役 藤田 晋。
(11)A64FX:富士通が開発したARMベースのCPUでスーパーコンピュータ「富岳」に搭載。
【本件に関するお問い合わせ先】
東京工業大学 学術国際情報センター 教授
横田 理央
Email: rioyokota@gsic.titech.ac.jp
TEL: 03-5734-2121
東北大学 大学院情報科学研究科 准教授
坂口 慶祐
Email: keisuke.sakaguchi@tohoku.ac.jp
TEL: 022-795-7091
富士通株式会社
富士通コンタクトライン(総合窓口)
TEL: 0120-933-200
受付時間:9時〜12時および13時〜17時30分(土曜日・日曜日・祝日・当社指定の休業日を除く)
お問い合わせフォーム
https://contactline.jp.fujitsu.com/customform/csque04802/873532/
プレスリリースに記載された製品の価格、仕様、サービス内容などは発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。
大規模言語モデルは、ChatGPT(注6)をはじめとする生成AIの中核として使用されている深層学習のAIモデルであり、4者は今後今回の研究開発の成果物を公開することで、アカデミアや企業が幅広く使える大規模言語モデルの構築環境を整え、国内におけるAIの研究力向上に貢献し、学術および産業の両面で「富岳」の活用価値を高めることを目指します。
【背景】
ChatGPTに代表される大規模深層学習モデル(基盤モデル)は、インターネットやスマートフォンのように社会全体のあり方を変える革新的な技術であり、Society5.0における研究開発、経済社会、安全保障などのあらゆる側面から基盤技術として期待される一方で、基盤モデルの性能を高めるためには大量データを効率的に処理する高性能計算資源が不可欠です。
そこで、東京工業大学、東北大学、富士通、理化学研究所は、基盤モデルの研究開発における計算環境を整備するため、「富岳」政策対応枠において、「富岳」を活用した大規模言語モデル分散並列学習手法の開発に向けた研究開発を行います。
【実施期間】
2023年5月24日から2024年3月31日まで (「富岳」政策対応枠の利用期間)
【各機関・企業の役割】
今回開発する大規模言語モデル分散並列学習手法は、スーパーコンピュータ「富岳」の超大規模な並列計算環境において大規模言語モデル学習を効率良く実行する技術となります。各機関・企業の役割は以下の通りです。
東京工業大学:全体総括、大規模言語モデルの並列化および高速化
東北大学:学習用データの収集、モデルの選択
富士通:大規模言語モデルの高速化
理化学研究所:大規模言語モデルの分散並列化・通信高速化、大規模言語モデルの高速化
【今後について】
今後4者は、日本の研究者やエンジニアが大規模言語モデルの開発に活用できるように、今回の「富岳」政策対応枠で得られた研究成果を、2024年度に、GitHub(注7)やHugging Face(注8)を通じ公開する予定です。また、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、効率的な方法が創出され、次世代の革新的な研究やビジネスの成果に繋がることが期待されます。
さらに、ものづくりをはじめとする産業分野などへの応用を想定したマルチモーダル化のためのデータ生成手法および学習手法の開発を行う国立大学法人東海国立大学機構 名古屋大学(注9)や、大規模言語モデル構築のためのデータおよび技術提供を行う株式会社サイバーエージェント(注10)との連携も今後検討していきます。
【エンドースメント】
・東京工業大学 学術国際情報センター 教授 遠藤 敏夫
本学・理研によるスーパーコンピュータ「富岳」を活用した大規模言語モデルの並列化・高速化、富士通の「富岳」向け高性能計算基盤ソフトウェアの開発とAIモデルの性能チューニング、東北大学の自然言語処理の技術を融合させていきます。富士通との連携においては、スモールリサーチラボ「富士通次世代コンピューティング基盤協働研究拠点」も活用してまいります。今回の取り組みにより、「富岳」上で大規模分散深層学習を実施するための環境が整備されることで、我が国のAIの研究力向上への貢献が期待されます。
・東北大学 情報科学研究科システム情報科学専攻 教授 乾 健太郎
学習データの情報に透明性があり、日本語データを中心にした、商用利用も可能なオープンソースの大規模言語モデルを構築します。学習データのトレースを可能にすることによって、ブラックボックス問題、バイアス、誤情報・ハルシネーション等に関する科学的検証に耐える研究が可能になると期待されます。東北大で培った言語処理モデルの深層学習や日本語処理を考慮した言語モデル構築の知見も活かしながら大規模モデル構築の試行錯誤を重ね、得られた知見を広く共有することによって、我が国のAI研究力向上へ貢献してまいります。
・富士通株式会社 執行役員EVP 富士通研究所長 岡本 青史
当社が有する大規模並列コンピューティングとAIの融合技術を活用することで、スーパーコンピュータ「富岳」を用いた大規模言語モデルの研究開発に貢献するとともに、そこで得られる先進的AI技術や知見を当社のAIプラットフォーム「Fujitsu Kozuchi (code name) - Fujitsu AI Platform」を介して提供することで、画期的なアプリケーションの開拓を促進し、持続可能な社会の実現に貢献してまいります。
・理化学研究所 計算科学研究センター 松岡 聡 センター長
「富岳」で開発された「A64FX」(注11)は、SVEと呼ばれるAIの加速機能を備えていますが、その能力を最高に発揮し、かつ一般的なAIアプリで活用するには、ソフトウェアの開発と最適化が不可欠です。今回の共同研究を通じて、本計算科学研究センターの研究者を含む、我が国の言語モデルや計算機科学の研究者が結集して、スーパーコンピュータ「富岳」上で大規模言語モデル構築基盤の高度化に取り組むことが重要です。これにより、本センターとしてSociety 5.0の実現に貢献していく所存です。
【課題名】
「富岳」を活用した大規模言語モデル分散並列学習手法の開発 (課題番号:hp230254)
【商標について】
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
【注釈】
(1)国立大学法人東京工業大学:本部 東京都目黒区 学長 益 一哉。
(2)国立大学法人東北大学:本部 仙台市青葉区 総長 大野 英男。
(3)富士通株式会社:本社 東京都港区 代表取締役社長 時田 隆仁。
(補足:掲載先メディアや閲覧環境の仕様によっては、「隆」の文字が正しく表示されない場合があります。正しくは、「隆」の「生」の上に「一」が入ります。)
(4)国立研究開発法人理化学研究所:本部 埼玉県和光市 理事長 五神 真。
(5)大規模言語モデル:数億〜数十億のパラメータを持ち、大量のデータを用いて事前学習されたニューラルネットワークのことを指す。最近では言語処理におけるGPTや画像処理におけるViTなどが代表的な大規模学習モデルとして知られている。
(6)ChatGPT:OpenAIが開発した自然言語処理のための大規模言語モデルで、対話システムや自動文章生成などのタスクに高い精度で対応。
(7)GitHub:世界中でオープンソースソフトウェアの公開につかわれているプラットフォーム。https://github.com/
(8)Hugging Face:世界中でAIのデータセットを公開するのに使われているプラットフォーム。https://huggingface.co/
(9)国立大学法人東海国立大学機構 名古屋大学:本部 名古屋市千種区 総長 杉山直。
(10)株式会社サイバーエージェント:本社 東京都渋谷区 代表取締役 藤田 晋。
(11)A64FX:富士通が開発したARMベースのCPUでスーパーコンピュータ「富岳」に搭載。
【本件に関するお問い合わせ先】
東京工業大学 学術国際情報センター 教授
横田 理央
Email: rioyokota@gsic.titech.ac.jp
TEL: 03-5734-2121
東北大学 大学院情報科学研究科 准教授
坂口 慶祐
Email: keisuke.sakaguchi@tohoku.ac.jp
TEL: 022-795-7091
富士通株式会社
富士通コンタクトライン(総合窓口)
TEL: 0120-933-200
受付時間:9時〜12時および13時〜17時30分(土曜日・日曜日・祝日・当社指定の休業日を除く)
お問い合わせフォーム
https://contactline.jp.fujitsu.com/customform/csque04802/873532/
プレスリリースに記載された製品の価格、仕様、サービス内容などは発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。