東工大・東北大・富士通・理研、スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発について
[23/05/22]
TOKYO, May 22, 2023 - (JCN Newswire) - 国立大学法人東京工業大学(注1)(以下、東京工業大学)、国立大学法人東北大学(注2)(以下、東北大学)、富士通株式会社(注3)(以下、富士通)、国立研究開発法人理化学研究所(注4)(以下、理化学研究所)は、「富岳」政策対応枠において、スーパーコンピュータ「富岳」を活用した大規模言語モデル(Large Language Model, LLM)(注5)の分散並列学習手法の研究開発を2023年5月から実施します。
大規模言語モデルは、ChatGPT(注6)をはじめとする生成AIの中核として使用されている深層学習のAIモデルであり、4者は今後今回の研究開発の成果物を公開することで、アカデミアや企業が幅広く使える大規模言語モデルの構築環境を整え、国内におけるAIの研究力向上に貢献し、学術および産業の両面で「富岳」の活用価値を高めることを目指します。
背景
ChatGPTに代表される大規模深層学習モデル(基盤モデル)は、インターネットやスマートフォンのように社会全体のあり方を変える革新的な技術であり、Society5.0における研究開発、経済社会、安全保障などのあらゆる側面から基盤技術として期待される一方で、基盤モデルの性能を高めるためには大量データを効率的に処理する高性能計算資源が不可欠です。
そこで、東京工業大学、東北大学、富士通、理化学研究所は、基盤モデルの研究開発における計算環境を整備するため、「富岳」政策対応枠において、「富岳」を活用した大規模言語モデル分散並列学習手法の開発に向けた研究開発を行います。
実施期間
2023年5月24日から2024年3月31日まで (「富岳」政策対応枠の利用期間)
各機関・企業の役割
今回開発する大規模言語モデル分散並列学習手法は、スーパーコンピュータ「富岳」の超大規模な並列計算環境において大規模言語モデル学習を効率良く実行する技術となります。各機関・企業の役割は以下の通りです。
東京工業大学:全体総括、大規模言語モデルの並列化および高速化
東北大学:学習用データの収集、モデルの選択
富士通:大規模言語モデルの高速化
理化学研究所:大規模言語モデルの分散並列化・通信高速化、大規模言語モデルの高速化
今後について
今後4者は、日本の研究者やエンジニアが大規模言語モデルの開発に活用できるように、今回の「富岳」政策対応枠で得られた研究成果を、2024年度に、GitHub(注7)やHugging Face(注8)を通じ公開する予定です。また、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、効率的な方法が創出され、次世代の革新的な研究やビジネスの成果に繋がることが期待されます。
さらに、ものづくりをはじめとする産業分野などへの応用を想定したマルチモーダル化のためのデータ生成手法および学習手法の開発を行う国立大学法人東海国立大学機構 名古屋大学(注9)や、大規模言語モデル構築のためのデータおよび技術提供を行う株式会社サイバーエージェント(注10)との連携も今後検討していきます。
エンドースメント
東京工業大学 学術国際情報センター 教授 遠藤 敏夫
本学・理研によるスーパーコンピュータ「富岳」を活用した大規模言語モデルの並列化・高速化、富士通の「富岳」向け高性能計算基盤ソフトウェアの開発とAIモデルの性能チューニング、東北大学の自然言語処理の技術を融合させていきます。富士通との連携においては、スモールリサーチラボ「富士通次世代コンピューティング基盤協働研究拠点」も活用してまいります。今回の取り組みにより、「富岳」上で大規模分散深層学習を実施するための環境が整備されることで、我が国のAIの研究力向上への貢献が期待されます。
東北大学 情報科学研究科システム情報科学専攻 教授 乾 健太郎
学習データの情報に透明性があり、日本語データを中心にした、商用利用も可能なオープンソースの大規模言語モデルを構築します。学習データのトレースを可能にすることによって、ブラックボックス問題、バイアス、誤情報・ハルシネーション等に関する科学的検証に耐える研究が可能になると期待されます。東北大で培った言語処理モデルの深層学習や日本語処理を考慮した言語モデル構築の知見も活かしながら大規模モデル構築の試行錯誤を重ね、得られた知見を広く共有することによって、我が国のAI研究力向上へ貢献してまいります。
富士通株式会社 執行役員EVP 富士通研究所長 岡本 青史
当社が有する大規模並列コンピューティングとAIの融合技術を活用することで、スーパーコンピュータ「富岳」を用いた大規模言語モデルの研究開発に貢献するとともに、そこで得られる先進的AI技術や知見を当社のAIプラットフォーム「Fujitsu Kozuchi (code name) - Fujitsu AI Platform」を介して提供することで、画期的なアプリケーションの開拓を促進し、持続可能な社会の実現に貢献してまいります。
理化学研究所 計算科学研究センター 松岡 聡 センター長
「富岳」で開発された「A64FX」(注11)は、SVEと呼ばれるAIの加速機能を備えていますが、その能力を最高に発揮し、かつ一般的なAIアプリで活用するには、ソフトウェアの開発と最適化が不可欠です。今回の共同研究を通じて、本計算科学研究センターの研究者を含む、我が国の言語モデルや計算機科学の研究者が結集して、スーパーコンピュータ「富岳」上で大規模言語モデル構築基盤の高度化に取り組むことが重要です。これにより、本センターとしてSociety 5.0の実現に貢献していく所存です。
課題名
「富岳」を活用した大規模言語モデル分散並列学習手法の開発(課題番号:hp230254)
詳細につきましては下記サイトをご参照ください。
https://pr.fujitsu.com/jp/news/2023/05/22.html
概要: 富士通株式会社
詳細は http://jp.fujitsu.com/ をご覧ください。
Copyright 2023 JCN Newswire. All rights reserved. www.jcnnewswire.com
大規模言語モデルは、ChatGPT(注6)をはじめとする生成AIの中核として使用されている深層学習のAIモデルであり、4者は今後今回の研究開発の成果物を公開することで、アカデミアや企業が幅広く使える大規模言語モデルの構築環境を整え、国内におけるAIの研究力向上に貢献し、学術および産業の両面で「富岳」の活用価値を高めることを目指します。
背景
ChatGPTに代表される大規模深層学習モデル(基盤モデル)は、インターネットやスマートフォンのように社会全体のあり方を変える革新的な技術であり、Society5.0における研究開発、経済社会、安全保障などのあらゆる側面から基盤技術として期待される一方で、基盤モデルの性能を高めるためには大量データを効率的に処理する高性能計算資源が不可欠です。
そこで、東京工業大学、東北大学、富士通、理化学研究所は、基盤モデルの研究開発における計算環境を整備するため、「富岳」政策対応枠において、「富岳」を活用した大規模言語モデル分散並列学習手法の開発に向けた研究開発を行います。
実施期間
2023年5月24日から2024年3月31日まで (「富岳」政策対応枠の利用期間)
各機関・企業の役割
今回開発する大規模言語モデル分散並列学習手法は、スーパーコンピュータ「富岳」の超大規模な並列計算環境において大規模言語モデル学習を効率良く実行する技術となります。各機関・企業の役割は以下の通りです。
東京工業大学:全体総括、大規模言語モデルの並列化および高速化
東北大学:学習用データの収集、モデルの選択
富士通:大規模言語モデルの高速化
理化学研究所:大規模言語モデルの分散並列化・通信高速化、大規模言語モデルの高速化
今後について
今後4者は、日本の研究者やエンジニアが大規模言語モデルの開発に活用できるように、今回の「富岳」政策対応枠で得られた研究成果を、2024年度に、GitHub(注7)やHugging Face(注8)を通じ公開する予定です。また、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、効率的な方法が創出され、次世代の革新的な研究やビジネスの成果に繋がることが期待されます。
さらに、ものづくりをはじめとする産業分野などへの応用を想定したマルチモーダル化のためのデータ生成手法および学習手法の開発を行う国立大学法人東海国立大学機構 名古屋大学(注9)や、大規模言語モデル構築のためのデータおよび技術提供を行う株式会社サイバーエージェント(注10)との連携も今後検討していきます。
エンドースメント
東京工業大学 学術国際情報センター 教授 遠藤 敏夫
本学・理研によるスーパーコンピュータ「富岳」を活用した大規模言語モデルの並列化・高速化、富士通の「富岳」向け高性能計算基盤ソフトウェアの開発とAIモデルの性能チューニング、東北大学の自然言語処理の技術を融合させていきます。富士通との連携においては、スモールリサーチラボ「富士通次世代コンピューティング基盤協働研究拠点」も活用してまいります。今回の取り組みにより、「富岳」上で大規模分散深層学習を実施するための環境が整備されることで、我が国のAIの研究力向上への貢献が期待されます。
東北大学 情報科学研究科システム情報科学専攻 教授 乾 健太郎
学習データの情報に透明性があり、日本語データを中心にした、商用利用も可能なオープンソースの大規模言語モデルを構築します。学習データのトレースを可能にすることによって、ブラックボックス問題、バイアス、誤情報・ハルシネーション等に関する科学的検証に耐える研究が可能になると期待されます。東北大で培った言語処理モデルの深層学習や日本語処理を考慮した言語モデル構築の知見も活かしながら大規模モデル構築の試行錯誤を重ね、得られた知見を広く共有することによって、我が国のAI研究力向上へ貢献してまいります。
富士通株式会社 執行役員EVP 富士通研究所長 岡本 青史
当社が有する大規模並列コンピューティングとAIの融合技術を活用することで、スーパーコンピュータ「富岳」を用いた大規模言語モデルの研究開発に貢献するとともに、そこで得られる先進的AI技術や知見を当社のAIプラットフォーム「Fujitsu Kozuchi (code name) - Fujitsu AI Platform」を介して提供することで、画期的なアプリケーションの開拓を促進し、持続可能な社会の実現に貢献してまいります。
理化学研究所 計算科学研究センター 松岡 聡 センター長
「富岳」で開発された「A64FX」(注11)は、SVEと呼ばれるAIの加速機能を備えていますが、その能力を最高に発揮し、かつ一般的なAIアプリで活用するには、ソフトウェアの開発と最適化が不可欠です。今回の共同研究を通じて、本計算科学研究センターの研究者を含む、我が国の言語モデルや計算機科学の研究者が結集して、スーパーコンピュータ「富岳」上で大規模言語モデル構築基盤の高度化に取り組むことが重要です。これにより、本センターとしてSociety 5.0の実現に貢献していく所存です。
課題名
「富岳」を活用した大規模言語モデル分散並列学習手法の開発(課題番号:hp230254)
詳細につきましては下記サイトをご参照ください。
https://pr.fujitsu.com/jp/news/2023/05/22.html
概要: 富士通株式会社
詳細は http://jp.fujitsu.com/ をご覧ください。
Copyright 2023 JCN Newswire. All rights reserved. www.jcnnewswire.com