Citadel AI、大規模言語モデルの信頼性向上ツールLangCheckをOSSで公開
[23/10/12]
提供元:PRTIMES
提供元:PRTIMES
「信頼できるAI」を社会実装する株式会社Citadel AI(本社:東京都渋谷区、代表取締役:小林裕宜、以下「Citadel AI」)は、企業や公的機関・教育現場等で導入検討が進んでいる、大規模言語モデルを用いた業務アプリケーションについて、その信頼性を向上するツール「LangCheck(ラングチェック)」を、GitHub上でオープンソースとして10月12日公開いたします。
LangCheckを開発や運用に組み込んでいただくことで、大規模言語モデルを、より安心・安全な環境でご利用いただくことができるようになります。日本語にも対応しています。
なおLangCheckの公開に合わせ、大規模言語モデルとそのアプリケーションの開発・運用に関わる課題と対策をまとめたブログ記事も、弊社ホームページにて連載開始します。我々が社内ハッカソンを通じて学んだ実体験も交えて記載いたしますので、是非併せてご覧ください。
[画像1: https://prtimes.jp/i/75720/21/resize/d75720-21-9e3bcc662177162a3b10-3.png ]
■ 大規模言語モデルの可能性とリスク
Open AIやGoogle等から公開されている大規模言語モデル(Large Language Model、以下LLM)の技術進歩には目覚ましいものがあり、社会環境や仕事環境を大きく一変させる可能性を秘めています。
一方で、現状のLLMの多くは、インターネット上の情報を元に、その基本となる学習を行っているため、間違った情報や適切でない情報を学習してしまっているケースや、特定の専門領域や言語については未学習領域が残っており、誤った出力をしてしまうケースも散見されます。
こうしたLLMを、自らの業務用アプリケーションに組み込んで活用する場合、そのアウトプットの品質によっては、適切な企業活動に支障を来したり、企業ブランドやコンプライアンスにも大きな影響を及ぼすリスクが生じます。
LLMの開発・運用に関わる社内のガバナンス体制を整えることに加え、具体的な技術的検証・技術監視体制を整えることは非常に重要です。
■ 大規模言語モデルを用いたアプリケーションに求められる信頼性
LLMを実際に企業が利用しようとする場合、GPT-3.5(ChatGPTのベースとなるモデル)のような基盤モデル(Foundation Model)を、自ら開発し学習させるようなことは現実的には限られ、多くのケースでは以下の図のように、既存のLLMを業務用途向けに活用するためのアプリケーション(以下LLM App)を開発し、LLM Appを通じて利用するケースが多いと考えられます。
[画像2: https://prtimes.jp/i/75720/21/resize/d75720-21-c29b8a39298e65680fdc-2.png ]
こうした場合、基盤モデルである第三者のLLM自体の品質や信頼性を、企業側で直接的に制御したり改善することは難しく、企業のLLM App側で、以下2点の対策を取ることが非常に重要なポイントになります。
1.LLM Appの品質・性能向上に向けた「攻めの取り組み」
2.LLM Appの問題のある振る舞いを検証し抑制する「守りの取り組み」
LLMの場合、入出力形態が定型的でなく、従来のAIシステム評価で利用してきたようなベンチマークでは、精度や品質を測ることが困難です。そのためには、LLM特有の技術的な品質評価方法が必要になります。さらに、一般公開されているLLMのテストツールは存在しても、どれを採用すべきかの判断が難しく、インターフェースも統一されておらず、作業時間もかかり、特定の言語にしか対応していないなど、多くの問題を抱えています。
■ Citadel AIのOSSツール「LangCheck」
こうした課題を解決し、より確信を持って、高品質な業務用のLLM Appを開発・運用できる環境を、エンジニアや企業の皆様と共に早期に実現したい、それが今回弊社が「LangCheck(ラングチェック)」をGitHub上でオープンソースソフトウェア(OSS)として公開する目的です。
LangCheckは、多様なLLMテストツールを網羅的にパッケージ化して備えています。統一化されたインターフェースで、簡便にLLM Appの検証を行い、品質を改善したり、運用時の異常をモニタリングすることに役立てていただくことができます。また、すべての機能について、日本語と英語を手始めに、多言語対応を拡充していく計画です。以下はLangCheckに含まれる機能の一例です。
お客様のデータセットに基づく正解テキストとの一致判定
事実との一致度合いを測るFactual Consistencyチェック
入出力のスキーマチェック
有害な出力や差別的な出力を調べるToxicityチェック
文法・単語等の誤りを調べるFluencyチェック
ポジティブ・ネガティブ表現に関わるSentimentチェック 等
是非以下のGitHubのリンクからダウンロードしてご活用いただくと共に、皆様からのご要望やご意見を心からお待ちしております。
https://github.com/citadel-ai/langcheck
[画像3: https://prtimes.jp/i/75720/21/resize/d75720-21-bdd47977f0d62f095bc0-0.png ]
また、LangCheckの公開に合わせ、大規模言語モデルとそのアプリケーションの開発・運用に関わるブログ記事を、以下の弊社ホームページにて連載開始します。我々が社内ハッカソンを通じて学んだ実体験も記載していますので、是非併せてご覧ください。
https://www.citadel.co.jp/blog/2023/09/27/introduction-to-llm-citadel-ais-llm-efforts-to-date/
Citadel AIは「信頼できるAI」の社会実装を実現する、日本発のグローバルスタートアップです。元Google Brain、Waymoやトヨタ等において、ハイリスクAIの課題と正に実戦で闘って来た世界のエンジニアが結集し、開発をリードしています。弊社製品は、国際標準業界を代表するBSIやサントリー等、グローバル企業に採用され、高い評価をいただいております。
【株式会社Citadel AIについて】
代表取締役: 小林裕宜
本社: 東京都渋谷区
設立: 2020年12月10日
企業URL: https://www.citadel.co.jp
Twitter: https://twitter.com/CitadelAI
お問合せ: info@citadel.co.jp
LangCheckを開発や運用に組み込んでいただくことで、大規模言語モデルを、より安心・安全な環境でご利用いただくことができるようになります。日本語にも対応しています。
なおLangCheckの公開に合わせ、大規模言語モデルとそのアプリケーションの開発・運用に関わる課題と対策をまとめたブログ記事も、弊社ホームページにて連載開始します。我々が社内ハッカソンを通じて学んだ実体験も交えて記載いたしますので、是非併せてご覧ください。
[画像1: https://prtimes.jp/i/75720/21/resize/d75720-21-9e3bcc662177162a3b10-3.png ]
■ 大規模言語モデルの可能性とリスク
Open AIやGoogle等から公開されている大規模言語モデル(Large Language Model、以下LLM)の技術進歩には目覚ましいものがあり、社会環境や仕事環境を大きく一変させる可能性を秘めています。
一方で、現状のLLMの多くは、インターネット上の情報を元に、その基本となる学習を行っているため、間違った情報や適切でない情報を学習してしまっているケースや、特定の専門領域や言語については未学習領域が残っており、誤った出力をしてしまうケースも散見されます。
こうしたLLMを、自らの業務用アプリケーションに組み込んで活用する場合、そのアウトプットの品質によっては、適切な企業活動に支障を来したり、企業ブランドやコンプライアンスにも大きな影響を及ぼすリスクが生じます。
LLMの開発・運用に関わる社内のガバナンス体制を整えることに加え、具体的な技術的検証・技術監視体制を整えることは非常に重要です。
■ 大規模言語モデルを用いたアプリケーションに求められる信頼性
LLMを実際に企業が利用しようとする場合、GPT-3.5(ChatGPTのベースとなるモデル)のような基盤モデル(Foundation Model)を、自ら開発し学習させるようなことは現実的には限られ、多くのケースでは以下の図のように、既存のLLMを業務用途向けに活用するためのアプリケーション(以下LLM App)を開発し、LLM Appを通じて利用するケースが多いと考えられます。
[画像2: https://prtimes.jp/i/75720/21/resize/d75720-21-c29b8a39298e65680fdc-2.png ]
こうした場合、基盤モデルである第三者のLLM自体の品質や信頼性を、企業側で直接的に制御したり改善することは難しく、企業のLLM App側で、以下2点の対策を取ることが非常に重要なポイントになります。
1.LLM Appの品質・性能向上に向けた「攻めの取り組み」
2.LLM Appの問題のある振る舞いを検証し抑制する「守りの取り組み」
LLMの場合、入出力形態が定型的でなく、従来のAIシステム評価で利用してきたようなベンチマークでは、精度や品質を測ることが困難です。そのためには、LLM特有の技術的な品質評価方法が必要になります。さらに、一般公開されているLLMのテストツールは存在しても、どれを採用すべきかの判断が難しく、インターフェースも統一されておらず、作業時間もかかり、特定の言語にしか対応していないなど、多くの問題を抱えています。
■ Citadel AIのOSSツール「LangCheck」
こうした課題を解決し、より確信を持って、高品質な業務用のLLM Appを開発・運用できる環境を、エンジニアや企業の皆様と共に早期に実現したい、それが今回弊社が「LangCheck(ラングチェック)」をGitHub上でオープンソースソフトウェア(OSS)として公開する目的です。
LangCheckは、多様なLLMテストツールを網羅的にパッケージ化して備えています。統一化されたインターフェースで、簡便にLLM Appの検証を行い、品質を改善したり、運用時の異常をモニタリングすることに役立てていただくことができます。また、すべての機能について、日本語と英語を手始めに、多言語対応を拡充していく計画です。以下はLangCheckに含まれる機能の一例です。
お客様のデータセットに基づく正解テキストとの一致判定
事実との一致度合いを測るFactual Consistencyチェック
入出力のスキーマチェック
有害な出力や差別的な出力を調べるToxicityチェック
文法・単語等の誤りを調べるFluencyチェック
ポジティブ・ネガティブ表現に関わるSentimentチェック 等
是非以下のGitHubのリンクからダウンロードしてご活用いただくと共に、皆様からのご要望やご意見を心からお待ちしております。
https://github.com/citadel-ai/langcheck
[画像3: https://prtimes.jp/i/75720/21/resize/d75720-21-bdd47977f0d62f095bc0-0.png ]
また、LangCheckの公開に合わせ、大規模言語モデルとそのアプリケーションの開発・運用に関わるブログ記事を、以下の弊社ホームページにて連載開始します。我々が社内ハッカソンを通じて学んだ実体験も記載していますので、是非併せてご覧ください。
https://www.citadel.co.jp/blog/2023/09/27/introduction-to-llm-citadel-ais-llm-efforts-to-date/
Citadel AIは「信頼できるAI」の社会実装を実現する、日本発のグローバルスタートアップです。元Google Brain、Waymoやトヨタ等において、ハイリスクAIの課題と正に実戦で闘って来た世界のエンジニアが結集し、開発をリードしています。弊社製品は、国際標準業界を代表するBSIやサントリー等、グローバル企業に採用され、高い評価をいただいております。
【株式会社Citadel AIについて】
代表取締役: 小林裕宜
本社: 東京都渋谷区
設立: 2020年12月10日
企業URL: https://www.citadel.co.jp
Twitter: https://twitter.com/CitadelAI
お問合せ: info@citadel.co.jp