モルフォAIソリューションズが国立国会図書館の最新AI技術を活用したOCR処理プログラムの開発を完了
[22/04/28]
提供元:PRTIMES
提供元:PRTIMES
モルフォグループにおいてAIの事業化を担う、株式会社モルフォAIソリューションズ(所在地:東京都千代田区、代表取締役:神田武、以下 モルフォAIS)は、国立国会図書館からの「OCR処理プログラムの研究開発(以下 本事業)」委託事業を完了しましたので、発表します。
国立国会図書館は『ビジョン2021-2025 国立国会図書館のデジタルシフト』の一環として、将来にわたる全ての利用者に多様な情報資源を提供するユニバーサルアクセスを実現する事業と、そのための恒久的なインフラとなる国のデジタル情報基盤の拡充を図る事業に取り組んでいます。
『ビジョン2021-2025 国立国会図書館のデジタルシフト』:https://vision2021.ndl.go.jp/
[画像1: https://prtimes.jp/i/64140/53/resize/d64140-53-f3d777fd2615054f08a4-0.png ]
本事業では、国立国会図書館デジタルコレクション上で提供される資料画像について、今後本文テキストデータの作成を行えるようにモルフォの保有する最新AI技術・画像処理技術を取り入れたOCR処理プログラムの研究開発を実施しました。また、凸版印刷株式会社(東京都文京区、代表取締役社長:麿 秀晴)の協力のもと、約1,300万文字のOCR学習用データセットを構築しました。
令和3年度に開発したOCR処理プログラムは多様なレイアウト・文字種に対応しており、既存のOCRサービスが対応できなかった明治期〜昭和期までの複雑な資料のテキスト化が可能になりました。
■明治期〜昭和期の書籍画像(2億枚)のテキスト化処理の研究開発
1.複雑なレイアウトへの対応
[画像2: https://prtimes.jp/i/64140/53/resize/d64140-53-4333927364cd1bd4aca6-1.png ]
[画像3: https://prtimes.jp/i/64140/53/resize/d64140-53-2e968c103ecfda6a5716-2.png ]
2.多様な文字種(旧字旧仮名)への対応
[画像4: https://prtimes.jp/i/64140/53/resize/d64140-53-2a3b1399b6376b2a90a1-3.png ]
3.OCR処理プログラムの精度向上
1860年代以降の書籍・雑誌において市販OCRより高い90%以上の精度で認識可能となりました。特に明治期〜昭和初期の近代書籍・雑誌においては、市販OCRの約2倍(約40%→90%以上)の読み取り精度となりました。
[画像5: https://prtimes.jp/i/64140/53/resize/d64140-53-b7a78d237c44b197ef42-4.png ]
<国立国会図書館次世代システム開発研究室様コメント>
今回の成果である日本語のOCR処理プログラム「NDLOCR」は、NDLラボ公式GitHubアカウント(https://github.com/ndl-lab )からオープンソースで令和4年4月25日に公開しました。NDLOCRは、学習用データを用意することで追加の学習が可能なOCRで、今後国立国会図書館がデジタル化する資料の全文テキストデータ作成に使用します。プログラムのほかに、開発に用いた機械学習用データセット(著作権保護期間が満了したデジタル化資料から作成した分のみ)も近々に公開予定です。日本語OCR全体の精度向上に資することになれば、と考えておりますので、関心のある多くの方々にご活用いただきたいと思っております。
【株式会社モルフォAIソリューションズについて】
モルフォAIソリューションズは、AI(人工知能)の事業化に取り組む企業です。行政、電力、交通、製造といった社会インフラの領域で、AI-OCRをはじめとする最先端のAI技術の導入と実運用を推進しております。
所在地:東京都千代田区神田錦町2−2−1 KANDA SQUARE 10F
代表者:代表取締役 神田 武
設立:2019年12月
事業内容:AIコンサルティング、システムインテグレーション、SW・HW販売など
ホームページ:https://www.morphoai.com
【株式会社モルフォについて】
モルフォは「画像処理/AI(人工知能)」の研究開発型企業です。高度な画像処理技術を組み込みソフトウェアとして、国内外のスマートフォン、半導体メーカを中心にグローバルに展開しています。また、カメラで捉えた画像情報をエッジデバイスやクラウドで解析する、AIを駆使した画像認識技術を車載や産業IoT分野へ提供し、様々なイノベーションを先進のイメージング・テクノロジーで実現しています。
所在地:東京都千代田区神田錦町2−2−1 KANDA SQUARE 10F
代表者:代表取締役社長 平賀 督基(まさき)、【博士(理学)】
設立:2004年5月26日
資本金:1,783,958千円(2021年10月31日現在)
事業内容:画像処理およびAI(人工知能)技術の研究・製品開発。スマートフォン・半導体・車載・産業IoT向けソフトウェア事業をグローバルに展開。
ホームページ:https://www.morphoinc.com/
Facebook:https://www.facebook.com/morphoinc
【お問合せ先】
株式会社モルフォ 広報担当 大野
TEL:080-8433-3415
お問い合わせフォーム:http://www.morphoinc.com/contact
国立国会図書館は『ビジョン2021-2025 国立国会図書館のデジタルシフト』の一環として、将来にわたる全ての利用者に多様な情報資源を提供するユニバーサルアクセスを実現する事業と、そのための恒久的なインフラとなる国のデジタル情報基盤の拡充を図る事業に取り組んでいます。
『ビジョン2021-2025 国立国会図書館のデジタルシフト』:https://vision2021.ndl.go.jp/
[画像1: https://prtimes.jp/i/64140/53/resize/d64140-53-f3d777fd2615054f08a4-0.png ]
本事業では、国立国会図書館デジタルコレクション上で提供される資料画像について、今後本文テキストデータの作成を行えるようにモルフォの保有する最新AI技術・画像処理技術を取り入れたOCR処理プログラムの研究開発を実施しました。また、凸版印刷株式会社(東京都文京区、代表取締役社長:麿 秀晴)の協力のもと、約1,300万文字のOCR学習用データセットを構築しました。
令和3年度に開発したOCR処理プログラムは多様なレイアウト・文字種に対応しており、既存のOCRサービスが対応できなかった明治期〜昭和期までの複雑な資料のテキスト化が可能になりました。
■明治期〜昭和期の書籍画像(2億枚)のテキスト化処理の研究開発
1.複雑なレイアウトへの対応
[画像2: https://prtimes.jp/i/64140/53/resize/d64140-53-4333927364cd1bd4aca6-1.png ]
[画像3: https://prtimes.jp/i/64140/53/resize/d64140-53-2e968c103ecfda6a5716-2.png ]
2.多様な文字種(旧字旧仮名)への対応
[画像4: https://prtimes.jp/i/64140/53/resize/d64140-53-2a3b1399b6376b2a90a1-3.png ]
3.OCR処理プログラムの精度向上
1860年代以降の書籍・雑誌において市販OCRより高い90%以上の精度で認識可能となりました。特に明治期〜昭和初期の近代書籍・雑誌においては、市販OCRの約2倍(約40%→90%以上)の読み取り精度となりました。
[画像5: https://prtimes.jp/i/64140/53/resize/d64140-53-b7a78d237c44b197ef42-4.png ]
<国立国会図書館次世代システム開発研究室様コメント>
今回の成果である日本語のOCR処理プログラム「NDLOCR」は、NDLラボ公式GitHubアカウント(https://github.com/ndl-lab )からオープンソースで令和4年4月25日に公開しました。NDLOCRは、学習用データを用意することで追加の学習が可能なOCRで、今後国立国会図書館がデジタル化する資料の全文テキストデータ作成に使用します。プログラムのほかに、開発に用いた機械学習用データセット(著作権保護期間が満了したデジタル化資料から作成した分のみ)も近々に公開予定です。日本語OCR全体の精度向上に資することになれば、と考えておりますので、関心のある多くの方々にご活用いただきたいと思っております。
【株式会社モルフォAIソリューションズについて】
モルフォAIソリューションズは、AI(人工知能)の事業化に取り組む企業です。行政、電力、交通、製造といった社会インフラの領域で、AI-OCRをはじめとする最先端のAI技術の導入と実運用を推進しております。
所在地:東京都千代田区神田錦町2−2−1 KANDA SQUARE 10F
代表者:代表取締役 神田 武
設立:2019年12月
事業内容:AIコンサルティング、システムインテグレーション、SW・HW販売など
ホームページ:https://www.morphoai.com
【株式会社モルフォについて】
モルフォは「画像処理/AI(人工知能)」の研究開発型企業です。高度な画像処理技術を組み込みソフトウェアとして、国内外のスマートフォン、半導体メーカを中心にグローバルに展開しています。また、カメラで捉えた画像情報をエッジデバイスやクラウドで解析する、AIを駆使した画像認識技術を車載や産業IoT分野へ提供し、様々なイノベーションを先進のイメージング・テクノロジーで実現しています。
所在地:東京都千代田区神田錦町2−2−1 KANDA SQUARE 10F
代表者:代表取締役社長 平賀 督基(まさき)、【博士(理学)】
設立:2004年5月26日
資本金:1,783,958千円(2021年10月31日現在)
事業内容:画像処理およびAI(人工知能)技術の研究・製品開発。スマートフォン・半導体・車載・産業IoT向けソフトウェア事業をグローバルに展開。
ホームページ:https://www.morphoinc.com/
Facebook:https://www.facebook.com/morphoinc
【お問合せ先】
株式会社モルフォ 広報担当 大野
TEL:080-8433-3415
お問い合わせフォーム:http://www.morphoinc.com/contact