ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
[24/11/02]
提供元:PRTIMES
提供元:PRTIMES
ストックマーク株式会社(本社:東京都港区、社長:林 達、以下:ストックマーク)は、大規模言語モデル(Large Language Models、以下:LLM)の研究開発組織であるLLM組織において、Researcherの高橋による日本語LLMの分析論文が、LLM領域の査読付き国際会議「PACLIC 38(Pacific Asia Conference on Language, Information and Computation)」に採択されました。
[画像: https://prcdn.freetls.fastly.net/release_image/24407/209/24407-209-63749e07ea390f3fcd4e5ebb69f662b9-1024x536.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
PACLIC は、言語学・情報科学・計算言語学分野でアジア太平洋地域の研究者が集まる国際会議です。言語とコンピュータ技術の交差点に焦点を当てた長年続く会議で、過去の会議では、最新の自然言語処理技術、機械学習の応用、アジアの多様な言語データセットの分析などが発表されています。
この度、採択された論文は、2024年12月7日から9日にかけて東京外語大学で開催される「PACLIC 38」にて発表を行います。
・PACLIC 38:https://sites.google.com/view/paclic38/home
論文背景
近年、自然言語処理技術分野の急速な成長に伴い、日本国内においてもLLMをはじめとした生成AI基盤の開発や、あらゆる分野での活用が注目されております。そのような中、当社LLM組織では、ビジネス用途での生成AI活用に対して、大学や研究機関との産学連携を強化しながら生成AI基盤の研究開発に注力しております。
中でも、日本のビジネス領域における生成AI活用で重要視される、ハルシネーション※1の抑止や、複雑な構文を持つ日本語かつ、厳密なビジネス領域の知識を豊富に学習した学習データ、最新のビジネスや時事話題に関する独自の性能評価データセットの構築、開発済みモデルに対して追加知識の獲得を可能にする継続事前学習への取組みとともに、日本語・ビジネス領域に特化した高精度かつ高速な処理を可能にしたLLM「Stockmark-LLM-13b」の開発を行ってまいりました。
日本語LLMの分析論文が国際会議に採択されるのは稀有であり、今回の論文採択は、言語特化型LLMに関する学術的成果のさきがけとなります。
※1:人工知能が学習したデータからは正当化できないはずの回答を堂々とする現象
論文概要
今回、当社の高橋が執筆した論文では、「Stockmark-LLM-13b」の研究開発について記載しており、下記の点を評価頂き、採択に至ったと考えております。
・基盤モデルの無償かつ商用利用可能な形式で公開しているため学術上で活用可能
・基盤モデル開発に伴う学習過程やモデルのパラメータを記載
・独自に作成した最新の時事話題やビジネスに関する質問データセット
「Stockmark Business Questions(以下:SBQ)」を公開
・23年9月までの情報しか含まれていない当該基盤モデルに対し、
継続事前学習による1か月分の追加知識獲得に成功
なお「Stockmark-LLM-13b」の研究開発は、国立研究開発法人産業技術総合研究所(以下:産総研)との共同研究の一環として行われ、本論文の執筆にあたってもご指導及びご監修を頂きました。
「Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain」
著者:高橋 洸丞(ストックマーク Researcher)、近江 崇宏(ストックマーク VP of Research)、
有馬 幸介(ストックマーク 取締役CTO)、石垣 達也(産総研)
LLMの開発はさまざまな言語で進展していますが、非英語圏の言語と特定の分野に特化したコンテキストを組み合わせた研究は依然として未開拓のままです。本論文では、日本語のビジネス分野に特化したLLMを訓練・評価した結果を紹介しています。
このLLMは、時事ニュースや技術レポート、特許など、ビジネス関連の文書をよりよく理解することを目的としています。さらに、この分野のLLMは最新の知識を反映するために定期的な更新が必要です。したがって、本論文では最新の記事データを使用してこのLLMを更新する実験と評価に関する結果も報告します。
私たちの新たに作成したビジネス分野における質問応答用ベンチマークデータセットを用いた実験では、以下の結果が得られました。
(1) 事前学習済みモデルは一般知識を損なうことなくQA精度を向上させること
(2) 更新のためのトレーニングデータには最新のテキストと古いテキストを適切に混合すること
が必要であることが判明しました。事前学習済みモデルとビジネス分野ベンチマークは、今後の研究を支援するために公開されています。
「Stockmark-LLM-13b」について
「Stockmark-LLM-13b」は、当社がフルスクラッチ※2で開発した、日本語単独で学習を行った130億パラメータのLLMです。当モデルの特徴は、日本語単独で学習を行ったことで世界の言語の中でも特に複雑な日本語に特化したモデルであることに加え、当社が独自に収集したビジネスに関するオープン情報や特許などのデータを豊富に学習したためビジネス領域に特化したモデルである点です。
更に、一般的な汎用モデルと比較しても高速で出力することが可能なため、ビジネス用途で重要視される「精度」「出力速度」双方で高い性能を発揮することができます。
なお、当モデルは「AWS LLM 開発支援プログラム※3」を活用して開発しました。
※2:システムを作る際に、既存のモデルを用いずにゼロから組み上げる開発手法
※3:「AWS LLM 開発支援プログラム」は、LLM開発を行うための計算機リソース確保に関するガイダンス、AWS上でのLLM事前学習に関わる技術的なメンタリング、LLM 事前学習用クレジット及びビジネス支援等のサポートを提供するAWSジャパンが2023年7月に開始したプログラムです。現時点で募集は終了しています。
当社のLLMに関する取り組み
現在、当社におけるLLM事業では「Stockmark-LLM」開発だけでなく、企業毎のオーダーメイドLLM構築支援や、各社に眠る様々な形式の社内データをAIで活用可能な形式に変換する構造化支援サービス「SAT(Stockmark-A-Technology)」など、企業独自LLMの開発やRAGの活用を支援しております。
・Stockmark-LLM:https://llm.stockmark.co.jp/
・Stockmark-A-Technology:https://stockmark-sat.studio.site/
ストックマーク株式会社について
ストックマーク株式会社は「価値創造の仕組みを再発明し、人類を前進させる」をミッションに掲げ、最先端の生成AI技術を活用し、多くの企業の企業変革を支援しています。
社内外の情報をワンストップで検索できる「Anews」及び、あらゆるデータを構造化し企業の資産に変える「SAT」を運営しています。さらに、企業特化生成AIの開発や、独自システムの構築も支援しています。
会社名 :ストックマーク株式会社
所在地 :東京都港区南青山一丁目12番3号 LIFORK MINAMI AOYAMA S209
設立 :2016年11月15日
代表者 :代表取締役CEO 林 達
事業内容:自然言語処理を活用した、
事業機会の探索と意思決定の支援を行うサービスの開発・運営
URL :https://stockmark.co.jp/