Lightblue、商用利用可能な日本語LLM「Karasu」「Qarasu」を公開
[24/01/04]
提供元:PRTIMES
提供元:PRTIMES
既存の日本語公開モデルの中で最高性能を達成、オンプレミス環境でのLLM利用を実現可能に
生成AIの研究開発「LLab」を運営し、日本語LLMの開発・提供を手掛ける株式会社Lightblue(代表取締役:園田亜斗夢、本社:東京都千代田区、以下「Lightblue」)は商用利用可能な日本語LLM「Karasu」「Qarasu」を公開したことをお知らせします。
[画像1: https://prtimes.jp/i/38247/53/resize/d38247-53-236f1dc924da3791d518-3.png ]
■ Karasu/Qarasuシリーズについて
Karasuシリーズは70億パラメータのShisa( https://huggingface.co/augmxnt/shisa-7b-v1 )に対して、日本語と英語の学習データを用いて70億トークンで継続事前学習とファインチューニングを実施したモデルです。
またQarasuシリーズは、140億パラメータのQwen-14B( https://huggingface.co/Qwen/Qwen-14B )に対して、Karasuシリーズで培ったノウハウを活かしファインチューニングしたモデルです。
Karasuシリーズは70億パラメータのモデルとして、非常に軽量であり、一部の13Bのモデルと同等の性能を示します。
Qarasuシリーズは140億パラメータのモデルであり、既存の日本語公開モデルの中で最高性能を達成しgpt-3.5に迫る性能を示します。
日本語言語モデルの性能を評価するためのベンチマークの一つである MT-Benchの6タスク平均スコアはKarasuが6.70、Qarasuが7.60となっています(表1)。
モデル名の由来は、日本神話に登場するカラスであり、導きの神の「八咫烏(ヤタガラス)」からきています。
公開した各種モデルの詳細は、note記事に記載しております。
・「データサイエンティストによるnote記事(英語版)」
https://note.com/peter_lightblue/n/ne08a7c8cc47a
・「日本語に翻訳したnote記事」
https://note.com/peter_lightblue/n/n2def04ca0d30
公開した「Karasu/Qarasu」シリーズのモデル一覧
https://huggingface.co/collections/lightblue/karasu-658e78e9188f3934c6fb701e
また、Qarasuについてはチャット形式のデモについても公開しています。
https://lightblue-qarasu.serveo.net
※アクセス過多によりリクエストが処理されるまで待ち時間が発生することがあります。
■ Karasu/Qarasuシリーズの性能
図1:日本語言語モデルベンチマークMT-Benchでの評価結果
[画像2: https://prtimes.jp/i/38247/53/resize/d38247-53-f02b108bf19f29a12c39-1.png ]
表1:日本語言語モデルベンチマークMT-Benchのスコア一覧
[画像3: https://prtimes.jp/i/38247/53/resize/d38247-53-9fd5cab326d5bb69ace7-2.png ]
KarasuシリーズのライセンスはApache2.0であり、商用利用可能です。
QarasuシリーズのライセンスはQwenのTongyi Qianwen LICENSE AGREEMENTを継承しており、利用条件によっては商用利用することが可能です。詳細はライセンスの公式情報(https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT)をご確認ください。
■ LLabについて
Lightblueの生成AI特化開発チーム「LLab」では、生成AI活用を目指す現場において真に実用的なLLM実装をサポートします。 「LLab」では、オンプレミスで個社に合わせた独自モデルを提供することはもちろん、DXコンサルティングおよび受託開発で培ったノウハウをフル活用し、各社・各部署・現場ごとの業務理解を基盤としたカスタマイズを実施します。
【独自開発が有効な現場】
1. 専門性が高い現場:
建設、製薬など、業界・法人ごとの専門用語が多い
2. 情報セキュリティレベルが高い現場:
金融、医療など、高レベルのデータ侵害対策が必要
3. インターネットにアクセスしづらい現場:
工場や建設現場など、通信環境の整備が難しい
「LLab」および本モデルを用いた企業内でのAI活用推進に興味のある方は、以下のリンクからお問い合わせください。
http://lightblue-tech.hubspotpagebuilder.com/lightblue-llab
株式会社Lightblueについて
Lightblueは、AIの民主化を目指し、画像解析・自然言語処理AIを軸にソリューションを開発している東大発スタートアップ企業です。生成AI・LLMの研究開発に特化したチーム「LLab」を設立し、安全性と透明性を重視したAIモデルの開発に取り組んでいます。AI技術の活用範囲を広げ、社会にポジティブな変革をもたらすことを目指しています。
社名:株式会社Lightblue
設立:2018年1月
代表者:代表取締役 園田 亜斗夢
所在地:東京都千代田区神田小川町3-28-5 axle御茶ノ水 PB02
AI顧問:鳥海不二夫(東京大学工学系研究科教授)
事業内容: 画像解析・自然言語処理AIを軸にソリューションを開発。
・人物にフォーカスした画像解析システム「Human Sensing」
・SlackやTeamsにて利用できる法人向けChatGPT「Lightblue Assistant」
●Lightblueコーポレートサイト https://www.lightblue-tech.com/
生成AIの研究開発「LLab」を運営し、日本語LLMの開発・提供を手掛ける株式会社Lightblue(代表取締役:園田亜斗夢、本社:東京都千代田区、以下「Lightblue」)は商用利用可能な日本語LLM「Karasu」「Qarasu」を公開したことをお知らせします。
[画像1: https://prtimes.jp/i/38247/53/resize/d38247-53-236f1dc924da3791d518-3.png ]
■ Karasu/Qarasuシリーズについて
Karasuシリーズは70億パラメータのShisa( https://huggingface.co/augmxnt/shisa-7b-v1 )に対して、日本語と英語の学習データを用いて70億トークンで継続事前学習とファインチューニングを実施したモデルです。
またQarasuシリーズは、140億パラメータのQwen-14B( https://huggingface.co/Qwen/Qwen-14B )に対して、Karasuシリーズで培ったノウハウを活かしファインチューニングしたモデルです。
Karasuシリーズは70億パラメータのモデルとして、非常に軽量であり、一部の13Bのモデルと同等の性能を示します。
Qarasuシリーズは140億パラメータのモデルであり、既存の日本語公開モデルの中で最高性能を達成しgpt-3.5に迫る性能を示します。
日本語言語モデルの性能を評価するためのベンチマークの一つである MT-Benchの6タスク平均スコアはKarasuが6.70、Qarasuが7.60となっています(表1)。
モデル名の由来は、日本神話に登場するカラスであり、導きの神の「八咫烏(ヤタガラス)」からきています。
公開した各種モデルの詳細は、note記事に記載しております。
・「データサイエンティストによるnote記事(英語版)」
https://note.com/peter_lightblue/n/ne08a7c8cc47a
・「日本語に翻訳したnote記事」
https://note.com/peter_lightblue/n/n2def04ca0d30
公開した「Karasu/Qarasu」シリーズのモデル一覧
https://huggingface.co/collections/lightblue/karasu-658e78e9188f3934c6fb701e
また、Qarasuについてはチャット形式のデモについても公開しています。
https://lightblue-qarasu.serveo.net
※アクセス過多によりリクエストが処理されるまで待ち時間が発生することがあります。
■ Karasu/Qarasuシリーズの性能
図1:日本語言語モデルベンチマークMT-Benchでの評価結果
[画像2: https://prtimes.jp/i/38247/53/resize/d38247-53-f02b108bf19f29a12c39-1.png ]
表1:日本語言語モデルベンチマークMT-Benchのスコア一覧
[画像3: https://prtimes.jp/i/38247/53/resize/d38247-53-9fd5cab326d5bb69ace7-2.png ]
KarasuシリーズのライセンスはApache2.0であり、商用利用可能です。
QarasuシリーズのライセンスはQwenのTongyi Qianwen LICENSE AGREEMENTを継承しており、利用条件によっては商用利用することが可能です。詳細はライセンスの公式情報(https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT)をご確認ください。
■ LLabについて
Lightblueの生成AI特化開発チーム「LLab」では、生成AI活用を目指す現場において真に実用的なLLM実装をサポートします。 「LLab」では、オンプレミスで個社に合わせた独自モデルを提供することはもちろん、DXコンサルティングおよび受託開発で培ったノウハウをフル活用し、各社・各部署・現場ごとの業務理解を基盤としたカスタマイズを実施します。
【独自開発が有効な現場】
1. 専門性が高い現場:
建設、製薬など、業界・法人ごとの専門用語が多い
2. 情報セキュリティレベルが高い現場:
金融、医療など、高レベルのデータ侵害対策が必要
3. インターネットにアクセスしづらい現場:
工場や建設現場など、通信環境の整備が難しい
「LLab」および本モデルを用いた企業内でのAI活用推進に興味のある方は、以下のリンクからお問い合わせください。
http://lightblue-tech.hubspotpagebuilder.com/lightblue-llab
株式会社Lightblueについて
Lightblueは、AIの民主化を目指し、画像解析・自然言語処理AIを軸にソリューションを開発している東大発スタートアップ企業です。生成AI・LLMの研究開発に特化したチーム「LLab」を設立し、安全性と透明性を重視したAIモデルの開発に取り組んでいます。AI技術の活用範囲を広げ、社会にポジティブな変革をもたらすことを目指しています。
社名:株式会社Lightblue
設立:2018年1月
代表者:代表取締役 園田 亜斗夢
所在地:東京都千代田区神田小川町3-28-5 axle御茶ノ水 PB02
AI顧問:鳥海不二夫(東京大学工学系研究科教授)
事業内容: 画像解析・自然言語処理AIを軸にソリューションを開発。
・人物にフォーカスした画像解析システム「Human Sensing」
・SlackやTeamsにて利用できる法人向けChatGPT「Lightblue Assistant」
●Lightblueコーポレートサイト https://www.lightblue-tech.com/