カメラと慣性計測装置を利用した頑健な位置姿勢推定システムを開発
[23/05/29]
提供元:PRTIMES
提供元:PRTIMES
簡易なセンサーで高精度に位置姿勢を推定
・カメラと慣性計測装置(IMU)を用いた位置姿勢推定システムL-C*を開発
・3次元地図とカメラ画像の見えを照合しカメラの位置姿勢を高精度に推定、さらにIMUを組み合わせて計算負荷を1/30まで低減、頑健性を向上
・スマートフォンなどの身近なデバイスをセンサーとして利用し、拡張現実システムや主観映像解析、パーソナルモビリティの自動運転に応用可能
[画像1: https://prtimes.jp/i/113674/22/resize/d113674-22-8add0116348c5d6f4ce8-0.png ]
(https://youtu.be/1jdDb7_c1Ic)
概 要
国立研究開発法人 産業技術総合研究所(以下「産総研」という)デジタルアーキテクチャ研究センター スマートモビリティ研究チーム 大石 修士 主任研究員らは、カメラとIMU(慣性計測装置)を利用した位置姿勢推定システム(Visual Positioning System、VPS) L-C* (エル シースター)を開発しました。
位置姿勢の推定には、従来は専用の地図を用いていましたが、本技術により、汎用的な色付き3次元地図とカメラ画像を照合してカメラの位置姿勢を取得できます。照明や天候、景観が変化しても頑健に位置や姿勢の変化を検知可能です。また、従来は地図と画像の照合に膨大な計算が必要でしたが、新たにIMUを活用し照合間の動きを補間する仕組みを導入しました。これにより計算の負荷が高くなる主な原因である照合頻度を1/30 (30 Hzから1 Hz)まで引き下げることができました。その結果、安価な組み込みPCでも安定して動作するVPSを実現しました。また、異なるセンサー情報の融合により、カメラだけでは継続的な位置姿勢推定が困難であったデータでも、照合周期30 Hzで3 mm、1 Hzでも44 mmの誤差で位置推定を達成しました。
カメラとIMUはスマートフォン・スマートグラスにも内蔵されている一般的なセンサーで、拡張現実(Augmented Reality、AR)や主観映像解析、パーソナルモビリティの自動運転など、個人端末を利用した各種システム・サービスの基盤として広く活用が見込まれます。本技術の詳細は、2023年5月29日から6月2日まで英国・ロンドンで開催される国際会議IEEE International Conference on Robotics and Automation(ICRA)2023で発表予定です。
下線部は【用語解説】参照
開発の社会的背景
低廉なカメラで高精度に位置姿勢を求めるVPSは、Building Information Modeling(BIM)による建築施工管理やARを用いたモバイルゲーム、自動運転に向けた自己位置同定など、多分野で利用が進んでいる注目の技術です。VPSは一般に、事前に計測された3次元地図とカメラの画像が一致する位置姿勢を求めます。オープンソースや製品として利用できるものも多数ありますが、市場展開されている主要なVPSはIndirect法を用いるものが多く、位置姿勢推定専用の地図を必要とするという方式上の制約がありました。
研究の経緯
産総研は、汎用的な色付き3次元地図上で動作するDirect法ベースのVPSの確立に向け、情報理論に基づくカメラ位置同定手法、C*の開発に取り組んできました。今回、頑健性・リアルタイム性の向上のため先般技術を拡張し、カメラとIMUをセンサーフュージョンしたVPS、L-C*を開発しました。これにより、カメラのみを用いる先般技術では位置姿勢推定が困難だった場面でも安定して動作し、同時に画像照合の計算量を大きく低減したことで安価な計算機でも実行可能なVPSが実現しました。
近年では、3次元スキャン機能がスマートフォンに搭載されるなど個人での3次元地図生成も容易になっています。また、公共空間では街や国のスケールでの地理情報システムの整備が進み、写実的な色付き3次元地図がさまざまな環境で利用可能です。L-C*は特殊なセンサーを必要とせず汎用3次元地図上で動作するため、人・モノの移動を簡便に計測する技術として広く活用が期待されます。
本研究開発は、JSPS 科研費22K12214「ヘッドレスパーソナルモビリティの自律移動と制御」(2022年度〜2024年度)、および NEDO委託事業「人工知能技術適用によるスマート社会の実現/空間の移動分野安全・安心の移動のための三次元マップ等の構築」(2018年度〜2022年度)による支援を受けています。
研究の内容
本研究では、地図とカメラ画像の照合による位置姿勢の推定と、照合間の動きを補間するセンサー運動の推定、この両者を統合し安定して、かつ少ない計算量でカメラの位置姿勢を求めるVPS、L-C*を開発しました。
システムの中核であるカメラ位置姿勢推定には、L-C*の前身であるC*と同様の技術を利用しました。3次元地図とカメラの画像が「一致」する視点を探す(図2(左))のが位置姿勢推定の基本的な処理です。この「一致」には多様な定義があります。例えば、「色差」が小さくなることを一致と定義すれば、カメラ画像と色の配置が類似した視点が探し出せます。しかし、地図作成時から時間が経過し物の配置や天候の変化が起きると、地図とカメラ画像とで景色が大きく変わってしまい、色が変わらないことを前提としている指標では推定が困難になります。これに対し、C*では正規化情報距離を用い、「色の共起性」を一致の指標として地図とカメラ画像を照合します。これは、色の差を細かに評価する先の例とは対照的に、画像の明るい領域では地図も明るい傾向がある、というような同時性に基づき類似度を測るものです。例えば、図2(右)に示す白飛びのような外乱が起きた場合、色を直接比較する指標では類似度が正常に評価できなくなります。一方、正規化情報距離を用いるC*では、図2(右下)にあるように類似度を測る関数の形状が変わらず保持できており、画像と地図を安定的に照合できます。しかし、C*は照合に多量の計算が必要で、また照合のわずかな失敗で推定が継続できなくなるなどの課題がありました。
[画像2: https://prtimes.jp/i/113674/22/resize/d113674-22-b40471464bd4de7d7f97-1.png ]
図2 正規化情報距離を利用したカメラ位置姿勢推定
今回の成果は、このC*をセンサーフュージョンの枠組みで拡張し、照合の安定化、計算量の大幅な低減を可能にしたものです。具体的には、カメラとIMUを利用した計算負荷の低いVisual-Inertial Odometry(VIO)によりセンサーの細かな動きを求め、画像照合間の運動を補う仕組みを導入しました(図3)。これにより、1 Hz程度の低頻度な画像照合であっても安定してVPSを維持可能なフレームワークを構築し、一時的な照合の失敗にも頑健なシステムを実現しました。計算量の多い画像照合を30 Hz程度で処理する必要があったC*と比較すると、L-C*の演算負荷は1/30まで低減されており、小型の組み込みPCでも利用可能になりました。
[画像3: https://prtimes.jp/i/113674/22/resize/d113674-22-f237cf7a8ee08a6a4518-2.png ]
図3 VIOを利用した動きの補間によるVPSの計算量低減と頑健化
L-C*の性能を調べるため、シミュレーションを利用した定量評価を行いました(図4(a))。具体的には、シミュレーター上の3次元地図中に設定した軌道に沿ってカメラ画像列・IMU値の合成データを生成し、L-C*により元の軌道を正確に逆算できるか、推定精度と完遂率の2つの指標で評価しました。また、位置推定の周期を30 Hzから1 Hzへ低下させる、地図とカメラ画像間の見えを変化させるなど、実験条件の違いへの頑健性も試験しました。実験結果では、いずれの条件・環境においても位置姿勢を推定でき、推定精度の誤差は最小3 mm、悪条件においても最大140 mmにとどまりました。旧来のC*では急旋回や見えの変化により推定が途中で失敗しており、今回の実験ではセンサーフュージョンの有効性が明らかになっています。また、スマートフォン搭載のセンサーを利用して実環境でも評価を行いました(図4(b))。シミュレーションと同様、L-C*は激しい動きや回転運動にも安定して追従できるため、実用的な成果が得られています。
[画像4: https://prtimes.jp/i/113674/22/resize/d113674-22-6b8ac5775a68a7410b7c-3.png ]
今後の予定
今後は、開発したVPSをさまざまな対象に応用する予定です。一例として、センサーを持たないパーソナルモビリティ、ヘッドレスモビリティの自動運転を提案しています(図5)。搭乗者のスマートフォンをモビリティの「目」として取り付け、その場で自律化するというコンセプトです。L-C*を利用して自己位置を推定しつつ目的地へと制御すれば、レーザー距離計などを取り付けた専用車両を使わず安価に自動運転を実現できます。その他、スマートグラスを利用した人行動解析や施設内の案内を目的としたAR情報の提示など、多様な展開を目指しています。
[画像5: https://prtimes.jp/i/113674/22/resize/d113674-22-28320a7b40cead4fd343-4.png ]
図5 スマートフォンを利用したパーソナルモビリティの自動運転 (https://youtu.be/x4EnQYZtBLc)
論文情報
掲載誌:Proceedings of the 40th IEEE Conference on Robotics and Automation (ICRA 2023)
論文タイトル:L-C*: Visual-inertial Loose Coupling for Resilient and Lightweight Direct Visual Localization
著者:Shuji Oishi, Kenji Koide, Masashi Yokozuka, and Atsuhiko Banno
用語解説
IMU (Inertial Measurement Unit)
慣性計測ユニット。3次元空間での慣性運動を検出する。主に3軸加速度センサーと3軸ジャイロセンサーを内蔵し、対象の並進・回転運動を計測する。
VPS (Visual Positioning System)
カメラ画像から位置や姿勢を推定するシステム。主に屋外での大域的な位置情報を提供する衛星測位システム(GNSS)と異なり、より詳細な位置や方角を得る用途やGNSSが働かない屋内・地下空間での活用が見込まれる。
3次元地図
レーザースキャナーやカメラで計測した実環境の3次元形状を点や面の集合としてデジタル化した地図。幾何情報に別の情報を付与することもでき、本研究では点や面に色・テクスチャ画像を付与した写実的な3次元モデルを想定している。
Indirect法 / Direct法
地図とカメラ画像の対比により位置姿勢を推定する2種の方式。Indirect法は特徴点法とも呼ばれ、画像特徴量を付与した特殊な3次元地図とカメラ画像中の特徴量を比較する。Direct法は、色やテクスチャを付与した写実的な3次元地図とカメラ画像の色を直接比較する。比較方法は異なるが、いずれもその差異を最小化し最適な位置姿勢を求める点は共通している。
C* (シースター)
産総研が中心に開発したDirect法に基づくVPS。色味やエッジを比較してカメラ位置姿勢を求める従来手法と比べ頑健な推定が可能。Shuji Oishi, Yasunori Kawamata, Masashi Yokozuka, Kenji Koide, Atsuhiko Banno, and Jun Miura, "C*: Cross-modal Simultaneous Tracking And Rendering for 6-DoF Monocular Camera Localization Beyond Modalities", IEEE Robotics and Automation Letters, vol.5, no.4, pp.5229-5236, 2020.
センサーフュージョン
複数の異種のセンサーからの観測を融合し、より高度な推論を実現する技術的な枠組み。例えば安全運転支援システムでは、距離を測るミリ波レーダーに見えを測るカメラを組み合わせることで、より信頼性の高い歩行者認識を実現する事例が挙げられる。
正規化情報距離
情報の定量化に関する応用数学、情報理論において定義される量。ある確率変数を観測することで他の確率変数について得られる情報量の尺度である相互情報量を、0から1の範囲の値をとるよう正規化したもの。本研究では、地図と画像の見えの共起性を測る指標として応用している。
Visual-Inertial Odometry (VIO)
連続したカメラ映像とIMUの観測から、実寸での自己運動を推定する技術。代表的なものにVINS-MonoやARCoreが挙げられる。
・カメラと慣性計測装置(IMU)を用いた位置姿勢推定システムL-C*を開発
・3次元地図とカメラ画像の見えを照合しカメラの位置姿勢を高精度に推定、さらにIMUを組み合わせて計算負荷を1/30まで低減、頑健性を向上
・スマートフォンなどの身近なデバイスをセンサーとして利用し、拡張現実システムや主観映像解析、パーソナルモビリティの自動運転に応用可能
[画像1: https://prtimes.jp/i/113674/22/resize/d113674-22-8add0116348c5d6f4ce8-0.png ]
(https://youtu.be/1jdDb7_c1Ic)
概 要
国立研究開発法人 産業技術総合研究所(以下「産総研」という)デジタルアーキテクチャ研究センター スマートモビリティ研究チーム 大石 修士 主任研究員らは、カメラとIMU(慣性計測装置)を利用した位置姿勢推定システム(Visual Positioning System、VPS) L-C* (エル シースター)を開発しました。
位置姿勢の推定には、従来は専用の地図を用いていましたが、本技術により、汎用的な色付き3次元地図とカメラ画像を照合してカメラの位置姿勢を取得できます。照明や天候、景観が変化しても頑健に位置や姿勢の変化を検知可能です。また、従来は地図と画像の照合に膨大な計算が必要でしたが、新たにIMUを活用し照合間の動きを補間する仕組みを導入しました。これにより計算の負荷が高くなる主な原因である照合頻度を1/30 (30 Hzから1 Hz)まで引き下げることができました。その結果、安価な組み込みPCでも安定して動作するVPSを実現しました。また、異なるセンサー情報の融合により、カメラだけでは継続的な位置姿勢推定が困難であったデータでも、照合周期30 Hzで3 mm、1 Hzでも44 mmの誤差で位置推定を達成しました。
カメラとIMUはスマートフォン・スマートグラスにも内蔵されている一般的なセンサーで、拡張現実(Augmented Reality、AR)や主観映像解析、パーソナルモビリティの自動運転など、個人端末を利用した各種システム・サービスの基盤として広く活用が見込まれます。本技術の詳細は、2023年5月29日から6月2日まで英国・ロンドンで開催される国際会議IEEE International Conference on Robotics and Automation(ICRA)2023で発表予定です。
下線部は【用語解説】参照
開発の社会的背景
低廉なカメラで高精度に位置姿勢を求めるVPSは、Building Information Modeling(BIM)による建築施工管理やARを用いたモバイルゲーム、自動運転に向けた自己位置同定など、多分野で利用が進んでいる注目の技術です。VPSは一般に、事前に計測された3次元地図とカメラの画像が一致する位置姿勢を求めます。オープンソースや製品として利用できるものも多数ありますが、市場展開されている主要なVPSはIndirect法を用いるものが多く、位置姿勢推定専用の地図を必要とするという方式上の制約がありました。
研究の経緯
産総研は、汎用的な色付き3次元地図上で動作するDirect法ベースのVPSの確立に向け、情報理論に基づくカメラ位置同定手法、C*の開発に取り組んできました。今回、頑健性・リアルタイム性の向上のため先般技術を拡張し、カメラとIMUをセンサーフュージョンしたVPS、L-C*を開発しました。これにより、カメラのみを用いる先般技術では位置姿勢推定が困難だった場面でも安定して動作し、同時に画像照合の計算量を大きく低減したことで安価な計算機でも実行可能なVPSが実現しました。
近年では、3次元スキャン機能がスマートフォンに搭載されるなど個人での3次元地図生成も容易になっています。また、公共空間では街や国のスケールでの地理情報システムの整備が進み、写実的な色付き3次元地図がさまざまな環境で利用可能です。L-C*は特殊なセンサーを必要とせず汎用3次元地図上で動作するため、人・モノの移動を簡便に計測する技術として広く活用が期待されます。
本研究開発は、JSPS 科研費22K12214「ヘッドレスパーソナルモビリティの自律移動と制御」(2022年度〜2024年度)、および NEDO委託事業「人工知能技術適用によるスマート社会の実現/空間の移動分野安全・安心の移動のための三次元マップ等の構築」(2018年度〜2022年度)による支援を受けています。
研究の内容
本研究では、地図とカメラ画像の照合による位置姿勢の推定と、照合間の動きを補間するセンサー運動の推定、この両者を統合し安定して、かつ少ない計算量でカメラの位置姿勢を求めるVPS、L-C*を開発しました。
システムの中核であるカメラ位置姿勢推定には、L-C*の前身であるC*と同様の技術を利用しました。3次元地図とカメラの画像が「一致」する視点を探す(図2(左))のが位置姿勢推定の基本的な処理です。この「一致」には多様な定義があります。例えば、「色差」が小さくなることを一致と定義すれば、カメラ画像と色の配置が類似した視点が探し出せます。しかし、地図作成時から時間が経過し物の配置や天候の変化が起きると、地図とカメラ画像とで景色が大きく変わってしまい、色が変わらないことを前提としている指標では推定が困難になります。これに対し、C*では正規化情報距離を用い、「色の共起性」を一致の指標として地図とカメラ画像を照合します。これは、色の差を細かに評価する先の例とは対照的に、画像の明るい領域では地図も明るい傾向がある、というような同時性に基づき類似度を測るものです。例えば、図2(右)に示す白飛びのような外乱が起きた場合、色を直接比較する指標では類似度が正常に評価できなくなります。一方、正規化情報距離を用いるC*では、図2(右下)にあるように類似度を測る関数の形状が変わらず保持できており、画像と地図を安定的に照合できます。しかし、C*は照合に多量の計算が必要で、また照合のわずかな失敗で推定が継続できなくなるなどの課題がありました。
[画像2: https://prtimes.jp/i/113674/22/resize/d113674-22-b40471464bd4de7d7f97-1.png ]
図2 正規化情報距離を利用したカメラ位置姿勢推定
今回の成果は、このC*をセンサーフュージョンの枠組みで拡張し、照合の安定化、計算量の大幅な低減を可能にしたものです。具体的には、カメラとIMUを利用した計算負荷の低いVisual-Inertial Odometry(VIO)によりセンサーの細かな動きを求め、画像照合間の運動を補う仕組みを導入しました(図3)。これにより、1 Hz程度の低頻度な画像照合であっても安定してVPSを維持可能なフレームワークを構築し、一時的な照合の失敗にも頑健なシステムを実現しました。計算量の多い画像照合を30 Hz程度で処理する必要があったC*と比較すると、L-C*の演算負荷は1/30まで低減されており、小型の組み込みPCでも利用可能になりました。
[画像3: https://prtimes.jp/i/113674/22/resize/d113674-22-f237cf7a8ee08a6a4518-2.png ]
図3 VIOを利用した動きの補間によるVPSの計算量低減と頑健化
L-C*の性能を調べるため、シミュレーションを利用した定量評価を行いました(図4(a))。具体的には、シミュレーター上の3次元地図中に設定した軌道に沿ってカメラ画像列・IMU値の合成データを生成し、L-C*により元の軌道を正確に逆算できるか、推定精度と完遂率の2つの指標で評価しました。また、位置推定の周期を30 Hzから1 Hzへ低下させる、地図とカメラ画像間の見えを変化させるなど、実験条件の違いへの頑健性も試験しました。実験結果では、いずれの条件・環境においても位置姿勢を推定でき、推定精度の誤差は最小3 mm、悪条件においても最大140 mmにとどまりました。旧来のC*では急旋回や見えの変化により推定が途中で失敗しており、今回の実験ではセンサーフュージョンの有効性が明らかになっています。また、スマートフォン搭載のセンサーを利用して実環境でも評価を行いました(図4(b))。シミュレーションと同様、L-C*は激しい動きや回転運動にも安定して追従できるため、実用的な成果が得られています。
[画像4: https://prtimes.jp/i/113674/22/resize/d113674-22-6b8ac5775a68a7410b7c-3.png ]
今後の予定
今後は、開発したVPSをさまざまな対象に応用する予定です。一例として、センサーを持たないパーソナルモビリティ、ヘッドレスモビリティの自動運転を提案しています(図5)。搭乗者のスマートフォンをモビリティの「目」として取り付け、その場で自律化するというコンセプトです。L-C*を利用して自己位置を推定しつつ目的地へと制御すれば、レーザー距離計などを取り付けた専用車両を使わず安価に自動運転を実現できます。その他、スマートグラスを利用した人行動解析や施設内の案内を目的としたAR情報の提示など、多様な展開を目指しています。
[画像5: https://prtimes.jp/i/113674/22/resize/d113674-22-28320a7b40cead4fd343-4.png ]
図5 スマートフォンを利用したパーソナルモビリティの自動運転 (https://youtu.be/x4EnQYZtBLc)
論文情報
掲載誌:Proceedings of the 40th IEEE Conference on Robotics and Automation (ICRA 2023)
論文タイトル:L-C*: Visual-inertial Loose Coupling for Resilient and Lightweight Direct Visual Localization
著者:Shuji Oishi, Kenji Koide, Masashi Yokozuka, and Atsuhiko Banno
用語解説
IMU (Inertial Measurement Unit)
慣性計測ユニット。3次元空間での慣性運動を検出する。主に3軸加速度センサーと3軸ジャイロセンサーを内蔵し、対象の並進・回転運動を計測する。
VPS (Visual Positioning System)
カメラ画像から位置や姿勢を推定するシステム。主に屋外での大域的な位置情報を提供する衛星測位システム(GNSS)と異なり、より詳細な位置や方角を得る用途やGNSSが働かない屋内・地下空間での活用が見込まれる。
3次元地図
レーザースキャナーやカメラで計測した実環境の3次元形状を点や面の集合としてデジタル化した地図。幾何情報に別の情報を付与することもでき、本研究では点や面に色・テクスチャ画像を付与した写実的な3次元モデルを想定している。
Indirect法 / Direct法
地図とカメラ画像の対比により位置姿勢を推定する2種の方式。Indirect法は特徴点法とも呼ばれ、画像特徴量を付与した特殊な3次元地図とカメラ画像中の特徴量を比較する。Direct法は、色やテクスチャを付与した写実的な3次元地図とカメラ画像の色を直接比較する。比較方法は異なるが、いずれもその差異を最小化し最適な位置姿勢を求める点は共通している。
C* (シースター)
産総研が中心に開発したDirect法に基づくVPS。色味やエッジを比較してカメラ位置姿勢を求める従来手法と比べ頑健な推定が可能。Shuji Oishi, Yasunori Kawamata, Masashi Yokozuka, Kenji Koide, Atsuhiko Banno, and Jun Miura, "C*: Cross-modal Simultaneous Tracking And Rendering for 6-DoF Monocular Camera Localization Beyond Modalities", IEEE Robotics and Automation Letters, vol.5, no.4, pp.5229-5236, 2020.
センサーフュージョン
複数の異種のセンサーからの観測を融合し、より高度な推論を実現する技術的な枠組み。例えば安全運転支援システムでは、距離を測るミリ波レーダーに見えを測るカメラを組み合わせることで、より信頼性の高い歩行者認識を実現する事例が挙げられる。
正規化情報距離
情報の定量化に関する応用数学、情報理論において定義される量。ある確率変数を観測することで他の確率変数について得られる情報量の尺度である相互情報量を、0から1の範囲の値をとるよう正規化したもの。本研究では、地図と画像の見えの共起性を測る指標として応用している。
Visual-Inertial Odometry (VIO)
連続したカメラ映像とIMUの観測から、実寸での自己運動を推定する技術。代表的なものにVINS-MonoやARCoreが挙げられる。