AIの学習用データセットを作成・管理するデータマネジメントツール「Adansons Base」をリリース
[22/04/29]
提供元:PRTIMES
提供元:PRTIMES
AIの学習用データセット作成を効率化
株式会社Adansons(本社:宮城県仙台市、以下「Adansons」)は、非構造化データのメタ情報を整理し、AI学習用データセットの作成・管理を容易にするデータマネジメントツール「Adansons Base」をリリースしました。
ウェブサイト(日本語版):https://adansons.wraptas.site/419bc120c6c84fe9a37d12627365e2f4
ウェブサイト(英語版):https://adansons.wraptas.site/
■概要
画像や音声などの非構造化データをAI学習用に整理・整形することは、AI開発で頻繁に発生する工程です。「Adansons Base」ではこの工程にかける手間と時間を極力削減し、必要なデータを最適な形式で取り出すことができます。これによりデータセット設計を効率化し、学習結果のより深い考察やAIの性能の維持向上(データセントリックなAI開発)を手助けします。
■4つの特長
1.データセット作成に役立つ情報をデータベースに収集・統合
2.データセット作成時間の削減
3.データセット共有の高速化
4.AI性能向上のためのデータセット高品質化サポート
1.データセット作成に役立つ情報をデータベースに収集・統合
本製品では、データファイルのパスやファイル名などに含まれる情報や、Excelなどの外部ファイルに記述されたデータに関連する属性情報(メタデータ)を自動で抽出し、データセットとしていつでも使用できるように整形します。
メタデータの重複やラベルミスを判別し、自動で統合
重複する同じ内容のメタデータなどを、データファイルの情報などから自動で推測しながら、データベースに統合します。
例えば、下の例の場合、
・管理番号と番号
・クラス名とクラス名称
という列が自動で統合されます。
[画像1: https://prtimes.jp/i/49737/3/resize/d49737-3-fd4dca1d1160b1a2ad22-0.png ]
データベースに収集するメタデータの例
ファイルパスやフォルダ名
ExcelやCSV等にまとめられた学習データに関連する情報
データに紐づくAIの学習結果やパラメータ
※データファイルそのものはユーザーの手元に残したまま、上記情報のみを吸い上げて紐付けます。
[画像2: https://prtimes.jp/i/49737/3/resize/3e06e7c5d75df02729ec4b89b1883117.gif ]
[画像3: https://prtimes.jp/i/49737/3/resize/d49737-3-edb54f4114926e466c40-1.png ]
各種クラウドストレージ等に対応
ユーザーのローカルストレージの他に、各種クラウドストレージにも対応。
クラウド上にデータファイル自体は残したまま必要な情報のみを収集します。
2.データセット作成時間の削減
各種MLフレームワークに対応
作成したデータベースは、SDKを使えば、PyTorchやTensorflowですぐに使える形式で書き出しも可能です。
わざわざDataloaderを記述する必要はありません。
[画像4: https://prtimes.jp/i/49737/3/resize/d49737-3-7966b34fcf94be29ccfc-2.png ]
学習結果もデータセット作成に反映可能
学習した結果をデータベースに簡単に収集することも可能です。この結果を使って、例えば精度が悪かったデータだけを簡単に取り除くことも可能です。
URLやCSV形式などでも書き出し可能
書き出しの形式が複数あることで、DataRobotなど他のデータプラットフォームとの連携が可能です。
3.データセット共有の高速化
作成したデータセット(データファイル以外の学習に必要な情報)は簡単に共有することができ、共有された人はすぐに最新のデータセットを使用できます。本製品をクラウドストレージのように使用して受け渡しすることが可能です。
[画像5: https://prtimes.jp/i/49737/3/resize/d49737-3-fb3795918ad98774d62c-3.png ]
4.AI性能向上のためのデータセット高品質化サポート
本機能は、AIの学習結果とデータセットの持つ情報を合わせて活用することにより、ユーザーの手元で簡単にデータセントリックなAI開発を可能にするレコメンドエンジンです。※β版, PCT国際出願中
AIの学習結果とラベルなどの情報を比較して、様々な角度から、AIの性能を下げる要因を探して教えてくれます。
提案を受け入れたデータセットは、即時に提案内容を反映したデータセットとしてJupyterなどで使用可能です。
[画像6: https://prtimes.jp/i/49737/3/resize/d49737-3-3cf84206db82c1584ea4-4.png ]
■料金体系
今回リリースした本製品の個人ユーザー向け機能は無料でご利用いただけます。
■ご利用の流れ
下記の「利用登録」(https://adansons.wraptas.site/#a6e31f1705c1454ead37a7189b6ab310)より、メールアドレスをご登録ください。自動でインビテーションをお送りいたします。
■株式会社Adansonsについて
事業内容:AIを開発・運用するツールの提供・販売および、企業・学術機関との共同研究。
ウェブサイト:https://www.adansons.co.jp/
株式会社Adansons(本社:宮城県仙台市、以下「Adansons」)は、非構造化データのメタ情報を整理し、AI学習用データセットの作成・管理を容易にするデータマネジメントツール「Adansons Base」をリリースしました。
ウェブサイト(日本語版):https://adansons.wraptas.site/419bc120c6c84fe9a37d12627365e2f4
ウェブサイト(英語版):https://adansons.wraptas.site/
■概要
画像や音声などの非構造化データをAI学習用に整理・整形することは、AI開発で頻繁に発生する工程です。「Adansons Base」ではこの工程にかける手間と時間を極力削減し、必要なデータを最適な形式で取り出すことができます。これによりデータセット設計を効率化し、学習結果のより深い考察やAIの性能の維持向上(データセントリックなAI開発)を手助けします。
■4つの特長
1.データセット作成に役立つ情報をデータベースに収集・統合
2.データセット作成時間の削減
3.データセット共有の高速化
4.AI性能向上のためのデータセット高品質化サポート
1.データセット作成に役立つ情報をデータベースに収集・統合
本製品では、データファイルのパスやファイル名などに含まれる情報や、Excelなどの外部ファイルに記述されたデータに関連する属性情報(メタデータ)を自動で抽出し、データセットとしていつでも使用できるように整形します。
メタデータの重複やラベルミスを判別し、自動で統合
重複する同じ内容のメタデータなどを、データファイルの情報などから自動で推測しながら、データベースに統合します。
例えば、下の例の場合、
・管理番号と番号
・クラス名とクラス名称
という列が自動で統合されます。
[画像1: https://prtimes.jp/i/49737/3/resize/d49737-3-fd4dca1d1160b1a2ad22-0.png ]
データベースに収集するメタデータの例
ファイルパスやフォルダ名
ExcelやCSV等にまとめられた学習データに関連する情報
データに紐づくAIの学習結果やパラメータ
※データファイルそのものはユーザーの手元に残したまま、上記情報のみを吸い上げて紐付けます。
[画像2: https://prtimes.jp/i/49737/3/resize/3e06e7c5d75df02729ec4b89b1883117.gif ]
[画像3: https://prtimes.jp/i/49737/3/resize/d49737-3-edb54f4114926e466c40-1.png ]
各種クラウドストレージ等に対応
ユーザーのローカルストレージの他に、各種クラウドストレージにも対応。
クラウド上にデータファイル自体は残したまま必要な情報のみを収集します。
2.データセット作成時間の削減
各種MLフレームワークに対応
作成したデータベースは、SDKを使えば、PyTorchやTensorflowですぐに使える形式で書き出しも可能です。
わざわざDataloaderを記述する必要はありません。
[画像4: https://prtimes.jp/i/49737/3/resize/d49737-3-7966b34fcf94be29ccfc-2.png ]
学習結果もデータセット作成に反映可能
学習した結果をデータベースに簡単に収集することも可能です。この結果を使って、例えば精度が悪かったデータだけを簡単に取り除くことも可能です。
URLやCSV形式などでも書き出し可能
書き出しの形式が複数あることで、DataRobotなど他のデータプラットフォームとの連携が可能です。
3.データセット共有の高速化
作成したデータセット(データファイル以外の学習に必要な情報)は簡単に共有することができ、共有された人はすぐに最新のデータセットを使用できます。本製品をクラウドストレージのように使用して受け渡しすることが可能です。
[画像5: https://prtimes.jp/i/49737/3/resize/d49737-3-fb3795918ad98774d62c-3.png ]
4.AI性能向上のためのデータセット高品質化サポート
本機能は、AIの学習結果とデータセットの持つ情報を合わせて活用することにより、ユーザーの手元で簡単にデータセントリックなAI開発を可能にするレコメンドエンジンです。※β版, PCT国際出願中
AIの学習結果とラベルなどの情報を比較して、様々な角度から、AIの性能を下げる要因を探して教えてくれます。
提案を受け入れたデータセットは、即時に提案内容を反映したデータセットとしてJupyterなどで使用可能です。
[画像6: https://prtimes.jp/i/49737/3/resize/d49737-3-3cf84206db82c1584ea4-4.png ]
■料金体系
今回リリースした本製品の個人ユーザー向け機能は無料でご利用いただけます。
■ご利用の流れ
下記の「利用登録」(https://adansons.wraptas.site/#a6e31f1705c1454ead37a7189b6ab310)より、メールアドレスをご登録ください。自動でインビテーションをお送りいたします。
■株式会社Adansonsについて
事業内容:AIを開発・運用するツールの提供・販売および、企業・学術機関との共同研究。
ウェブサイト:https://www.adansons.co.jp/