この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と著者の個人的な理解過去 20 年間にわたり、SLAM 分野の研究は大きく発展し、未知の環境の自律的な探索を可能にする上での SLAM の重要な役割が強調されてきました。この進化は、手作りのアプローチからディープラーニング時代へと進み、最近ではニューラル ラディアンス フィールド (NeRF) と 3D ガウス スプラッタ (3DGS) 表現の開発に重点が置かれています。この論文は、研究が増加していることと、このテーマに関する包括的な調査が不足していることを認識し、放射場の最近の進歩を通じて SLAM の進歩に関する初めての包括的な概要を提供することを目的としています。それは、背景、進化の道筋、固有の強みと限界を明らかにし、動的な進歩と特定の課題を強調するための重要な参考資料として役立ちます。 関連背景既存のSLAMのレビューSLAM は大きな成長を遂げており、さまざまな包括的な論文が発表されています。初期の段階では、Durrant-White と Bailey が SLAM 問題の確率的性質を紹介し、主要な手法に重点を置きました。 Grisetti らはグラフベースの SLAM 問題をさらに研究し、未知の環境でのナビゲーションにおけるその役割を強調しました。ビジュアル SLAM の分野では、Yousif 氏がビジュアル オドメトリと SLAM の基本的な方法と進歩を組み合わせた位置特定およびマッピング技術の概要を説明しました。マルチロボット システムの出現により、Saeedi 氏と Clark 氏は、マルチロボット SLAM の課題と解決策に焦点を当てて、最先端のアプローチを検討するようになりました。 既存の文献では、フレーム間追跡法とフレームモデル追跡法という 2 つの主要な SLAM 戦略が浮上しています。通常、前者の戦略はリアルタイム システムで使用され、通常はループ クロージャ (LC) またはグローバル バンドル調整 (BA) を介して推定ポーズのさらなる最適化を伴います。一方、後者の戦略は、再構築された 3D モデルからカメラ ポーズを推定し、通常はさらなる最適化を回避しますが、大規模なシーンへのスケーラビリティが低下します。これらの戦略は、これから詳しく説明する方法論の基礎となります。 既存の調査では、従来のアプローチとディープラーニングベースのアプローチの両方がカバーされていますが、最近の文献には、放射分野の最新の進歩に根ざした SLAM 技術の最先端領域の包括的な調査が欠けています。 図2は放射場表現の3つの形式を示している。 放射場理論の進化ニューラルフィールドベースの表面再構成NeRF とその派生モデルはシーンの 3D ジオメトリをキャプチャする可能性がありますが、これらのモデルはニューラル ネットワークの重みで暗黙的に定義されます。 3D メッシュを介してシーンの明示的な表現を取得することは、3D 再構築アプリケーションにとって望ましいことです。 NeRF から始めて、粗いシーン ジオメトリを実現するための基本的なアプローチは、MLP によって予測された密度をしきい値化することです。より高度なソリューションでは、3 つの主要な表現形式を検討します。 占有状況。この表現は、光線に沿ったα値αiを学習した離散関数o(x)∈{0,1}に置き換えることで、自由空間と占有空間の両方をモデル化します。具体的には、マーチングキューブアルゴリズムを実行して占有確率∈[0, 1]を推定し、表面を取得します。 符号付き距離関数 (SDF)。シーンジオメトリの別の方法は、任意のポイントから最も近いサーフェスまでの符号付き距離であり、オブジェクトの内部では負の値、外部では正の値になります。 NeuS は、NeRF ボリューム レンダリング エンジンを再検討した最初の企業であり、MLP を使用して SDF を f(r(t)) として予測し、α を ρ(t) に置き換えました。ρ(t) は、SDF から次のように導出されます。 切り捨て符号付き距離関数 (TSDF)。最後に、MLP を使用して切り捨てられた SDF を予測すると、レンダリング中に単一のサーフェスから遠すぎて除去できない SDF 値の寄与が可能になります。ピクセルの色は、光線に沿ってサンプリングされた色の加重合計として取得されます。 3D ガウス スプラッティング2023 年に Kerbl によってリリースされた 3DGS は、3D シーンを効率的かつ高品質にレンダリングするための明示的な放射フィールド テクノロジーです。ボクセル グリッドなどの従来の明示的なボリューム表現とは異なり、微分可能な 3D ガウス形状プリミティブに基づいて 3D シーンをモデリングするための連続的で柔軟な表現を提供します。これらのプリミティブは放射フィールドをパラメータ化するために使用され、レンダリングして新しいビューを生成することができます。さらに、計算コストの高いボリューム レイ サンプリングに依存する NeRF とは対照的に、3DGS はタイルベースのラスタライザーを通じてリアルタイム レンダリングを実現します。この概念的な違いは図 3 で強調されています。このアプローチにより、ニューラル コンポーネントに依存せずに視覚品質が向上し、トレーニングが高速化されるとともに、空きスペースでの計算も回避されます。具体的には、カメラのポーズが既知のマルチビュー画像から始めて、3DGS は 3D ガウス分布のセットを学習します。これにより、単一のガウスプリミティブの空間的影響を次のようにコンパクトに表現できます。 逆に、最適化の場合、プロセスは SfM ポイント クラウドまたはランダム値のパラメーター初期化から開始され、次に L1 および D-SSIM 損失関数を使用して GT ビューとレンダリングされたビューの両方で確率的勾配降下法 (SGD) を実行します。さらに、周期的な適応型高密度化により、大きな勾配を持つポイントを調整し、不透明度の低いポイントを削除することで、再構築不足と再構築過剰を処理し、シーン表現を最適化してレンダリング エラーを削減します。 データセットこのセクションでは、最近の SLAM 方法で一般的に使用されるデータセットをまとめ、センサー、GT 精度、屋内と屋外の両方の環境におけるその他の重要な要素など、さまざまな特性を網羅しています。図 4 は、残りのセクションで紹介するさまざまなデータセットからの定性的な例を示しています。 TUM RGB-D データセットは、異なる動作範囲を提供するハンドヘルドとロボットの 2 つのプラットフォームを使用して記録された、注釈付きのカメラ軌跡を持つ RGB-D シーケンスで構成されています。このデータセットには 39 個のシーケンスが含まれており、そのうちのいくつかにはループ クロージャがあります。コア要素には、30 Hz および 640×480 解像度でキャプチャされた Microsoft Kinect センサーからのカラー画像と深度画像が含まれます。 GT の軌跡は、100 Hz で動作する 8 台の高速カメラを備えたモーション キャプチャ システムから生成されました。データセットの汎用性は、さまざまな並進速度や角速度を含む、一般的なオフィス環境や工業ホール内のさまざまな軌跡を通じて実証されています。 ScanNet データセットは、実際の屋内 RGB-D 取得のコレクションを提供します。これには、707 の固有の空間での 1,513 のスキャンからの 250 万枚の画像が含まれます。具体的には、推定されたキャリブレーション パラメータ、カメラのポーズ、3D サーフェスの再構築、テクスチャ メッシュ、オブジェクト レベルでの詳細なセマンティック セグメンテーション、および位置合わせされた CAD モデルが含まれます。 開発プロセスには、Structure Sensor を iPad などのハンドヘルド デバイスに接続するカスタム RGB-D キャプチャ セットアップを使用して、ユーザー フレンドリーなキャプチャ パイプラインを作成することが含まれていました。その後のオフライン処理段階では、利用可能な 6-DoF カメラポーズとセマンティック ラベルを含む包括的な 3D シーンの再構築が行われます。 ScanNet のカメラポーズは BundleFusion システムから派生したもので、TUM RGB-D などの代替システムほど正確ではない可能性があることに注意してください。 レプリカ データセットには、高密度メッシュ、HDR テクスチャ、セマンティック データ、反射面を備えた 18 のフォトリアリスティックな 3D 屋内シーンが含まれています。さまざまなシーン カテゴリにまたがり、88 のセマンティック クラスを含み、単一の空間の 6 つのスキャンを組み合わせて、さまざまな家具の配置と一時的なスナップショットをキャプチャします。再構築には、同期された IMU、RGB、IR、広角グレースケール センサーを備えたカスタム RGB-D キャプチャ デバイスが使用され、生の深度データと 6 自由度 (DoF) ポーズが正確に融合されます。元のデータは現実世界でキャプチャされますが、SLAM 評価に使用されるデータセットは、再構築プロセス中に生成された正確なメッシュから部分的に合成されて生成されます。その結果、合成シーケンスには、鏡面反射ハイライト、自動露出、ぼかしなどの現実世界の特性が欠けています。 KITTI データセットは、ステレオ、オプティカルフロー、ビジュアルオドメトリ/SLAM アルゴリズムなどを評価するための一般的なベンチマークです。このデータセットは、ステレオ カメラ、Velodyne LiDAR、GPS、慣性センサーを搭載した車両から取得され、自動運転シナリオを表す 61 のシーンからの 42,000 個のステレオ ペアと LiDAR ポイント クラウドが含まれています。 KITTI オドメトリ データセットには 22 個の LIDAR スキャン シーケンスが含まれており、LIDAR データを使用してオドメトリ方法を評価するのに役立ちます。 Newer College データセットは、オックスフォードの New College 周辺 2.2 km のウォーキング中に収集されたセンサー データで構成されています。これには、ステレオ慣性カメラ、慣性測定機能を備えたマルチビーム 3D LIDAR、三脚に取り付けられた測量グレードの LIDAR スキャナーからの情報が含まれており、約 2 億 9,000 万ポイントの詳細な 3D マップが生成されます。このデータセットは、各 LIDAR スキャンに対して 6 つの DoFGT ポーズを提供し、精度は約 3 cm です。データセットは、建築空間、オープンエリア、植生エリアなど、さまざまな環境をカバーしています。 その他のデータセットさらに、最近の SLAM 研究ではあまり利用されていない代替データセットにも注目します。 ETH3D-SLAM データセットには、カスタム カメラ リグからのビデオが含まれており、視覚慣性単眼、ステレオ、RGB-D SLAM の評価に適しています。 56 個のトレーニング データセット、35 個のテスト データセット、および GTSfM 技術を使用して個別にキャプチャされた 5 つのトレーニング シーケンスがあります。 EuRoC MAV データセットは、同期されたステレオ画像、IMU、およびマイクロ航空機用の正確な GT を提供します。ミリメートル精度の地上追跡を備えた産業環境や 3D 環境再構築のための部屋など、さまざまな条件での視覚慣性アルゴリズムの設計と評価をサポートします。 再定位性能評価用に作成された 7 シーンのデータセットは、Kinect を使用して 640×480 の解像度で記録されました。 GTポーズはKinectFusionを通じて取得されます。異なるユーザーからのシーケンスは、シミュレーション キーフレーム取得用とエラー計算用の 2 つのグループに分割されます。このデータセットには、鏡面反射、モーション ブラー、照明条件、平面、センサー ノイズなどの課題があります。 ScanNet++ データセットには、460 個の高解像度 3D 屋内シーン再構築、高密度セマンティック注釈、SLR 画像、iPhone RGB-D シーケンスが含まれています。サブミリメートル解像度の高性能レーザー スキャナーを使用してキャプチャされた各シーンには、1,000 を超えるセマンティック クラスの注釈が含まれており、ラベルのあいまいさを解決し、3D セマンティック シーンの理解と新しいビュー合成の新しいベンチマークを導入します。 スラムこのセクションでは、放射フィールド表現の最近の進歩を活用した最先端の SLAM システムを紹介します。論文は方法論に基づいた分類法で構成、アプローチ別に分類されており、読者に明確で整然としたプレゼンテーションを提供します。このセクションでは、まず RGB-D、RGB、LiDAR 方式の基本的な分類を示し、特定のサブカテゴリの開発の基礎を築きます。各カテゴリには、会議/ジャーナルで正式に公開された論文が公開日順にリストされ、その後に arXiv プレプリントが最初のプレプリント日順に並べられます。 包括的な理解のために、表 1 に調査方法の詳細な概要を示します。この表は、各アプローチの主な特徴を強調し、可能な場合はプロジェクト ページまたはソース コードへの参照を含めた詳細な概要を提供します。詳細や方法論の詳細については、原著論文を参照してください。 RGB-Dスラムここでは、カラー画像とピクセル単位の深度情報をキャプチャする RGB-D カメラを使用する高密度 SLAM 技術を使用する環境に焦点を当てます。これらの技術は、NeRF スタイルの SLAM ソリューションと 3D ガウス スプラッシュ表現に基づく代替ソリューションという異なるカテゴリに分類されます。これら 2 つのアプローチから派生した特殊なソリューションには、大規模なシーン向けのサブマップベースの SLAM 方式、セマンティクスを処理するフレームワーク、動的シーン向けにカスタマイズされたフレームワークなどがあります。この分類では、不確実性を通じて信頼性を評価する手法もあれば、イベントベースのカメラなどの他のセンサーとの統合を検討する手法もあります。 NeRF スタイルの RGB-D SLAM 暗黙的ニューラル表現の最近の進歩により、正確で高密度の 3D 表面再構築が可能になりました。これにより、NeRF から派生した、または NeRF に触発された新しいタイプの SLAM システムが誕生しました。これらのシステムは当初、既知のカメラ ポーズでオフラインで使用するために設計されました。このセクションでは、これらの高密度ニューラル VSLAM 手法について説明し、その主な機能を分析し、その長所と短所の明確な概要を示します。 iMAP。この研究は、SLAM に暗黙的なニューラル表現を活用する最初の試みです。この画期的な成果は、SLAM の限界を押し広げただけでなく、この分野に新たな方向性を確立しました。特に、iMAP は、シーン固有の暗黙的な 3D モデルを動的に作成する MLP の可能性を示しています。 ナイススラム。シーン表現として単一の MLP を使用する iMAP とは異なり、NICE-SLAM は、複数レベルのローカル データを統合する階層型戦略を採用しています。このアプローチは、大規模なシーンにおける過度に平滑化された再構築やスケーラビリティの制限などの問題に効果的に対処します。 ヴォックスフュージョン。この研究では、従来のボリューム融合法とニューラル暗黙的表現を組み合わせています。具体的には、ボクセルベースのニューラル暗黙的表面表現を利用して、各ボクセル内のシーンをエンコードおよび最適化します。 NICE-SLAM との類似点もありますが、その独自性は、オクトリーベースの構造を使用して動的なボクセル割り当て戦略を実装することにあります。 エスラム。 ESLAM の中核は、従来のボクセル グリッドとは異なる、マルチスケールの軸に沿った特徴平面を実現することです。このアプローチは、ボクセルベースのモデルが示す三次的成長とは対照的に、二次的スケーリングを通じてメモリ使用量を最適化します。 Co-SLAM、GO-SLAM、Point-SLAM、ToF-SLAM、ADFP、MLM-SLAM、Plenoxel-SLAM、Structerf-SLAM、iDF-SLAM、NeuV-SLAM などの他の研究については、それぞれの論文を参照してください。 3DGSスタイルRGB-D SLAM ここでは、3D ガウススプラッシュに基づく明示的なボリューム表現を使用して SLAM ソリューションを開発するための先駆的なフレームワークの概要を説明します。これらの方法では、他の既存のシーン表現と比較して、レンダリングが高速でリアルであるなど、3DGS の利点が活用されることが多いです。また、ガウス プリミティブを追加してマップ容量を増やす柔軟性も提供し、ピクセル単位の高密度フォトメトリック損失を最大限に活用し、パラメーター勾配フローを直接実行して高速な最適化を容易にします。これまで、3DGS 表現は、既知のカメラのポーズから新しいビューを合成することに重点を置いたオフライン システムで主に使用されてきました。次のセクションでは、シーンのジオメトリとカメラのポーズの両方を同時に最適化できる画期的な SLAM 手法を紹介します。 GS-SLAM。 GS-SLAM は、スプラッシュ レンダリング技術と組み合わせて 3D ガウス分布を表現として利用することで、パラダイム シフトを導入します。 GS-SLAM は、ニューラル暗黙的表現に依存する方法と比較して、図 6 に示すように、不透明度と球面調和関数とともに 3D ガウス分布を使用してシーンのジオメトリと外観をカプセル化する新しいアプローチを採用することで、マップの最適化と再レンダリングを大幅に高速化します。 フォトSLAM。この研究では、ハイパープリミティブ マップに明示的な幾何学的特徴と暗黙的なテクスチャ表現を統合します。この方法では、ORB 機能、回転、スケール、密度、球面調和関数の係数を組み合わせて、測光損失を最小限に抑えながらカメラのポーズとマッピングの精度を最適化します。 スプラタム。このアプローチでは、シーンを簡略化された 3D ガウス マップのコレクションとして表現し、高品質の色と深度の画像のレンダリングを可能にします。 SLAM パイプラインには、カメラ追跡、ガウス密度化、マップ更新といういくつかの重要なステップが含まれます。 グスラム。このシステムは、3D ガウス スプラッシュを唯一の表現として採用し、単一の移動 RGB または RGB-D カメラを使用してオンライン 3D 再構築を実行します。このフレームワークには、追跡とカメラポーズの最適化、ガウス形状の検証と正規化、マッピングとキーフレーム、リソースの割り当てとプルーニングなどのいくつかの主要コンポーネントが含まれています。 ガウスSLAM。このフレームワークは、マップの構築と最適化を含むパイプラインを採用し、個別の 3D ガウス ポイント クラウドによって表される個別のサブマップを作成して、壊滅的な忘却を防ぎ、計算効率を維持します。 サブマップベースのSLAM このカテゴリでは、大規模な環境における高密度の放射線場からヒントを得た SLAM システムが直面する、壊滅的な忘却の課題と、前述の適用性の問題に対処するアプローチに焦点を当てます。 メスラム。 MeSLAM は、最小限のメモリフットプリントで大規模な環境マッピングを行うための新しい SLAM アルゴリズムを導入します。これは、ニューラル暗黙マップ表現と新しいネットワーク分散戦略を組み合わせることによって実現されます。具体的には、分散 MLP ネットワークを使用することで、グローバル マッピング モジュールは環境をさまざまな領域に分割し、再構築中にこれらの領域のつなぎ合わせを調整するのに役立ちます。 CP-SLAM。この研究は、フロントエンド モジュールとバックエンド モジュールの両方を含む統合フレームワークを特徴とする、協調型ニューラル暗黙的 SLAM アプローチです。本質的には、キーフレームに関連付けられたニューラル ポイント ベースの 3D シーン表現を活用します。これにより、ポーズの最適化中にシームレスな調整が可能になり、共同マッピング機能が強化されます。 NISBマップ。 NISB Map は、iMAP の設計に従って、複数の小さな MLP ネットワークを採用し、大規模な環境をコンパクトな空間ブロックで表現します。深度事前分布によるサイドスパースレイサンプリングと組み合わせることで、メモリ使用量を抑えたスケーラブルな屋内マッピングが可能になります。 複数のSLAM。この論文では、壊滅的な忘却問題に対処するための新しい協調型暗黙的 SLAM フレームワークを紹介します。複数の SLAM エージェントを使用してシーンをチャンクで処理することにより、軌道とマッピングのエラーを最小限に抑えます。 MIPS-フュージョン。図 8 に示すように、この研究では、複数のニューラル サブマップの増分割り当てと動的学習を伴うグリッドフリーの純粋なニューラル アプローチを使用して、オンライン高密度 RGB-D 再構築のための分割統治マッピング スキームを導入しています。 ニュートン。ほとんどのニューラル SLAM システムは、単一のニューラル フィールド モデルを使用したワールド中心のマップ表現を使用します。ただし、このアプローチは、正確で固定された事前シーン情報に依存するため、動的でリアルタイムのシーンをキャプチャする際に課題に直面します。これは、大規模なマッピング シナリオでは特に問題になる可能性があります。 ンゲルスラム。このシステムは、トラッキング モジュールとマッピング モジュールの 2 つのモジュールを利用して、ORB-SLAM3 の堅牢なトラッキング機能と、複数の暗黙的なニューラル マップによって提供されるシーン表現を組み合わせます。 PLGSLAM。この研究で提案された漸進的なシーン表現アプローチは、シーン全体を複数のローカルシーン表現に分割し、より大きな屋内シーンへのスケーラビリティを実現し、堅牢性を向上させます。 ループスラム。このシステムは、ローカル マッピングと追跡のためにサブマップの形式でニューラル ポイント クラウドを使用します。この方法では、フレームからモデルへの追跡とデータ駆動型のポイントベースのサブマップ生成を採用し、シーン探索中のカメラの動きに基づいてサブマップを動的に拡大します。 セマンティックRGB-D SLAM SLAM システムとして動作するこれらの方法には、本質的にマッピングと追跡のプロセスが含まれており、環境のリアリティを高めるためにセマンティック情報も組み込まれています。これらのフレームワークは、オブジェクト認識やセマンティックセグメンテーションなどのタスクに合わせてカスタマイズされており、シーン分析に対する総合的なアプローチを提供します。つまり、オブジェクトを識別して分類したり、画像領域を特定の意味クラス (テーブル、椅子など) に効率的に分類したりします。 iラベル。このフレームワークは、3D シーンをインタラクティブに理解してセグメント化するための新しいシステムです。ニューラル フィールド表現を使用して、3D 座標を色、ボリューム密度、および意味値にマッピングします。 FRフュージョン。この方法は、ニューラル機能融合システムを iMAP フレームワークにシームレスに統合します。 2D 画像特徴抽出器 (EfficientNet または DINO ベース) を組み合わせ、潜在ボリューム レンダリング技術で iMAP を強化することで、システムは計算とメモリの要件を削減しながら高次元の特徴マップを効果的に融合できます。 vMap、NIDS-SLAM、SNI-SLAM、DNS SLAM、SGS-SLAM などの他のアルゴリズムについては、特定の論文を参照してください。 動的環境におけるSLAM 現在までのところ、ほとんどの SLAM アプローチは、堅固で動かない物体を特徴とする静的環境という基本的な仮定に基づいています。これらの技術は静的なシーンではうまく機能しますが、動的な環境では大きな課題に直面し、現実のシナリオでの適用性が制限されます。したがって、このセクションでは、動的な環境での正確なマッピングと位置推定の課題に対処するために特別に設計された方法について概説します。 DNスラム。この作業では、さまざまなコンポーネントを統合して、動的な環境における正確な位置推定とマップの一貫性の課題に対処します。 DN-SLAM は、オブジェクト追跡に ORB 機能を活用し、セマンティック セグメンテーション、オプティカル フロー、セグメント化された任意モデル (SAM) を使用して、シーン内の動的オブジェクトを効果的に識別および分離しながら、静的領域を保持して SLAM パフォーマンスを強化します。具体的には、セマンティックセグメンテーションを使用したオブジェクト認識、SAM による動的オブジェクトセグメンテーションの改良、静的特徴の抽出、NeRF を使用した高密度マップの生成が含まれます。 ダイナモN。このフレームワークは DROID-SLAM を基盤とし、モーションとセマンティック セグメンテーションによって強化されています。私たちの方法は、モーションマスクとセグメンテーションマスクを使用して最適化プロセスに重み付けし、潜在的に動的なピクセルを無視して、これらの要素を高密度の BA 手順に統合します。事前トレーニング済みの DeepLabV3 ネットワークを使用すると、セマンティック セグメンテーションによって既知のオブジェクト クラスのマスクを改良し、モーション ベースのフィルタリングを組み合わせて未知の動的要素を処理できます。 DDN-SLAM や NID-SLAM などの他のアルゴリズムについては、特定の論文を参照してください。 不確実性の推定 入力データ、特に深度センサーのノイズの不確実性を分析することは、堅牢なシステム処理にとって非常に重要です。これには、信頼性の低いセンサー測定値をフィルタリングしたり、深度の不確実性を最適化プロセスに組み込んだりするタスクが含まれます。全体的な目標は、システムの精度に重大な影響を与える可能性のある SLAM プロセスの不正確さを防ぐことです。同時に、ニューラル モデルの再構築に内在する不確実性を認識することで、特に困難なシナリオにおいてシステムの信頼性を評価するための重要なレイヤーが追加されます。このセクションでは、ニューラル SLAM における不確実性の探索の始まりを示し、SLAM システムの全体的なパフォーマンスを向上させるための重要な要素として、認知 (知識ベース) および予測 (環境ノイズベース) の不確実性情報の組み込みを強調します。 OpenWorld-SLAM。この研究はNICE-SLAMを改良したものである。事前定義されたグリッドへの依存による、非リアルタイム実行、軌道推定の制限、新しいシナリオへの適応性の課題に対処します。オープンワールドのシナリオでの適用性を高めるために、この研究では、RGB-D 画像からの深度不確実性の統合によるローカル精度の向上、慣性測定ユニット (IMU) からの動きの情報の利用、さまざまな環境処理のための NeRF の有限の前景メッシュと背景の球状メッシュへの分割など、新しい改善が導入されています。これらの機能強化により、NeRF ベースの SLAM の利点を維持しながら、追跡精度とマップ表現が向上します。この研究は、NeRF ベースの SLAM をサポートする特殊なデータセット、特に屋外メッシュ モデル、モーション データ、および特性が適切に評価されたセンサーを提供するデータセットの必要性を強調しています。 アンクルスラム。 UncLe-SLAM は、シーンのジオメトリと任意の深度の不確実性をその場で共同学習します。これは、入力深度センサーに関連付けられたラプラス誤差分布を採用することによって実現されます。深層不確実性モデリングの統合を欠く既存の方法とは異なり、UncLeSLAM は学習パラダイムを採用し、地上の真実の深度や 3D を必要とせずに、推定された信頼度に応じてさまざまな画像領域に適応的に重みを割り当てます。 イベントベースのSLAM 放射場からヒントを得た VSLAM 法は、正確な高密度再構成に利点がありますが、モーション ブラーや照明の変化を伴う現実世界のシナリオでは大きな課題が生じ、マッピングおよび追跡プロセスの堅牢性に影響を及ぼします。このセクションでは、イベント カメラによってキャプチャされたデータを活用して、そのダイナミック レンジと時間解像度を活用する一連のシステムについて説明します。特定のピクセルの明るさの対数変化によってトリガーされる非同期イベント生成メカニズムは、低レイテンシと高い時間分解能の点で潜在的な利点を示します。これにより、極限環境におけるニューラル VSLAM の堅牢性、効率性、精度が向上する可能性があります。イベント カメラ ベースの SLAM システムはまだ研究の初期段階ですが、進行中の研究によって従来の RGB ベースのアプローチの限界を克服できる可能性が期待されます。 エンスラム。このフレームワークは、暗黙的なニューラル パラダイムを介してイベント データと RGB-D をシームレスに統合することで、新しいパラダイム シフトを導入します。これは、モーション ブラーや照明の変化などの問題が特徴となる非理想的な環境で動作するときに既存の SLAM 方法が遭遇する課題を克服することを目的としています。 RGBベースのSLAMこのセクションでは、カラー画像からの視覚的な手がかりのみに依存する RGB 高密度 SLAM 方式について説明します。これにより、通常は光に敏感でノイズが多く、ほとんどの場合屋内でのみ適用可能な深度センサーが不要になります。そのため、RGB-D カメラが非実用的または高価な状況では、単眼カメラまたはステレオ カメラを使用した RGB のみの SLAM がますます注目を集めており、RGB カメラは屋内および屋外のより幅広い環境でより実行可能なソリューションとなっています。しかし、これらの方法は、幾何学的な事前条件が欠如しているため、特に単眼の設定では、深度の曖昧さの問題につながるため、課題に直面することがよくあります。したがって、最適化の制約が少ないため、最適化の収束が遅くなる傾向があります。 NeRF スタイルの RGB SLAM ディムスラム。この論文では、ニューラル暗黙マップ表現を使用した最初の RGB SLAM システムを紹介します。 NICE-SLAM と同様に、学習可能なマルチ解像度ボリュームエンコーディングと深度および色予測用の MLP デコーダーを組み合わせています。システムはシーンの特徴とデコーダーを動的に学習します。さらに、DIM-SLAM はスケール間で特徴を融合することで占有率を 1 ステップで最適化し、最適化速度を向上させます。特に、マルチビューステレオにヒントを得た測光ワープ損失を導入し、合成画像と観測画像の位置合わせを強制して、ビューに依存する強度の変化に対処することで精度を向上させます。他の RGB-D 方式と同様に、DIM-SLAM は並列トラッキングおよびマッピング スレッドを利用して、カメラのポーズと暗黙的なシーン表現を同時に最適化します。 Orbeez-SLAM、FMapping、TT-HO-SLAM、Hi-Map などの他のアルゴリズムについては、それぞれの論文を参照してください。 補助監督 このセクションでは、外部フレームワークを使用して正規化情報を最適化プロセスに統合する、補助監視と呼ばれる RGB ベースの SLAM 手法について説明します。これらのフレームワークには、単一ビューまたは複数ビューの画像から取得された深度推定から導かれる監視、表面法線推定、オプティカルフローなどのさまざまな手法が含まれます。外部信号の組み込みは、最適化プロセスの明確化に不可欠であり、RGB 画像のみを入力として使用する SLAM システムのパフォーマンスを大幅に向上させるのに役立ちます。 iモード。システムは、3 つのコア プロセスで構成されるマルチスレッド アーキテクチャを通じて動作します。まず、ローカリゼーション プロセスでは、ORB-SLAM2 スパース SLAM システムを使用して、CPU 上でリアルタイムのカメラ姿勢推定を実行し、後続のマッピングのキー フレームを選択します。 2 番目に、iMAP にヒントを得た半高密度マッピング プロセスでは、ディープ レンダリングされたジオメトリのリアルタイム トレーニングを監視することで、再構築の精度が向上します。 Hi-SLAM、NICER-SLAM、NeRF-VO、MoD-SLAM などの他のアルゴリズムについては、それぞれの論文を参照してください。 セマンティックRGBSLAM ROマップ。 RO-MAP は、深度事前分布を必要とせず、ターゲット表現にニューラル放射フィールドを使用するリアルタイムのマルチターゲット マッピング システムです。このアプローチは、軽量のオブジェクト中心の SLAM と NeRF モデルを組み合わせて、単眼 RGB 入力からオブジェクトを同時に特定して再構築します。このシステムは、各オブジェクトに対して個別の NeRF モデルを効果的にトレーニングし、セマンティック オブジェクト マッピングと形状再構築のリアルタイム パフォーマンスを実証します。主な貢献には、初の 3D 事前フリー単眼マルチオブジェクト マッピング パイプラインの開発、オブジェクトに合わせた効率的な損失関数、および高性能 CUDA 実装が含まれます。 不確実性の推定 NeRFスラム。提案手法では、トラッキング モジュールとして DROID-SLAM を採用し、階層型ボリューム ニューラル放射輝度フィールド マップのリアルタイム実装として Instant NGP を採用することで、RGB 画像を入力としてリアルタイム操作の効率化に成功しました。さらに、深度不確実性推定を組み込むことで、深度マップの固有のノイズに対処し、神経放射フィールドのディープロス監視(深度の限界共分散によって重み付け)を通じて結果を改善します。具体的には、パイプラインには、追跡とマッピングというリアルタイムで同期される 2 つのスレッドが含まれます。トラッキング スレッドは、スライディング キーフレーム ウィンドウ上の BA 再投影エラーを最小限に抑えます。マッピング スレッドは、スライディング ウィンドウなしでトラッキング スレッド内のすべてのキーフレームを最適化します。通信は、追跡スレッドが新しいキーフレームを作成し、キーフレーム データ、ポーズ、深度推定値、および共変量を共有する場合にのみ発生します。 LiDARベースのSLAMこれまで説明した VSLAM システムは、RGB と高密度深度データの両方が利用可能な小規模な屋内シーンでは正常に動作しますが、RGB-D カメラが実用的でない大規模な屋外環境ではその限界が明らかになります。 LiDAR センサーは、長距離やさまざまな屋外条件で、まばらでありながら正確な深度情報を提供することで、これらの環境で堅牢なマッピングと位置特定を実現する上で重要な役割を果たします。しかし、LiDAR データのスパース性と RGB 情報の欠如により、屋外環境では、これまでに概説した高密度 SLAM 方式の適用に課題が生じます。現在、私たちの焦点は、3D 増分 LIDAR データの精度を活用して屋外シーンでの自律ナビゲーションを改善するとともに、ラジオシティ フィールド ベースのシーン表現を活用して、センサー カバレッジがまばらなエリアでも高密度でスムーズな環境マップの再構築を実現するという新しいアプローチにあります。 NeRFスタイルのLiDARベースのSLAM NeRF-LOAM。 Nerf Loamは、LIDARデータを使用して大規模環境の包括的な3D表現を構築しながら、センサーの位置と方向を共同で決定する最初の神経暗黙の方法を導入します。フレームワークは、ニューラル臭気、神経マッピング、メッシュ再構成の3つの相互接続モジュールで構成されています。ニューラル臭気モジュールは、固定された暗黙的ネットワークを介してSDFエラーを最小化することにより、入ってくるLIDARスキャンごとに6-DOFポーズを推定します。その後、ポーズはバックプロジェクションを介して最適化されます。並行して、ニューラルマッピングモジュールは、オクトリーベースのアーキテクチャに動的なボクセル埋め込みを使用して、ローカルジオメトリを巧みにキャプチャします。この動的配分戦略により、計算リソースの効率的な利用が保証され、事前に割り当てられた埋め込みまたは時間集約型ハッシュテーブル検索の複雑さが回避されます。このメソッドは、動的なボクセル埋め込みルックアップテーブルを使用します。これにより、効率が向上し、計算ボトルネックが排除されます。キースキャンの改良戦略は、再構成の品質を改善し、増分マッピングプロセスで壊滅的な忘却の問題を解決し、最終ステップで詳細な3Dメッシュ表現をもたらします。 LonerやPin-Slamなどの他のアルゴリズムについては、特定の論文を参照してください。 3DGSスタイルのLIDARベースのスラム liv-gaussmap。提案されているLIDAR-INERTIAL VISION(LIV)Fusion Radiation Radiation Field Mapping Systemは、正確なデータアライメントのために、ハードウェア同期LIDAR-INERTIALセンサーとカメラを統合します。この方法は、Lidar-inertial odometryから始まり、サイズに適合したボクセルを使用して平面表面を表します。 Lidar Pointクラウドはボクセルにセグメント化されており、初期の楕円形のスプラッシュ推定の共分散マトリックスが計算されます。システムは、視覚的に導出された測光勾配を使用して球状高調波係数とライダーガウス構造を最適化することにより改善され、マッピングの精度と視覚的リアリズムを向上させます。ガウスの初期化には、サイズに適合したボクセルセグメンテーションと、指定されたパラメーターに基づくさらに下位区分が含まれます。 3Dガウスマップの適応制御は、構造の洗練と測光勾配の最適化を通じて、再構築された過剰なシーンと過度の密度の高いシーンに対処します。このシステムは、ラスター化とアルファブレンドを使用して、リアルタイムのレンダリングを実現します。 実験と分析このセクションでは、追跡と3D再構成に焦点を当てたデータセット間でメソッドを比較します。さらに、新しいビュー構成を探り、ランタイムとメモリの使用に関してパフォーマンスを分析します。それぞれのテーブルでは、太字と紫色の絶対的な結果を使用して、サブカテゴリ内で最高の結果を強調しました。分析では、一般的な評価プロトコルを使用して論文から定量的データを整理し、結果を相互検証しました。私たちの優先事項は、一貫したベンチマークを備えた論文を含め、複数のソース間での比較のための信頼できる基盤を確保することでした。このアプローチは網羅的ではありませんが、検証可能な結果とテーブルに共有された評価フレームワークを含むメソッドを含めることが保証されます。パフォーマンス分析には、利用可能なコードを備えたメソッドを使用して、一般的なハードウェアプラットフォーム(単一のNVIDIA 3090 GPU)にランタイムとメモリの要件を報告しました。各方法の特定の実装の詳細については、読者は元の論文を参照することをお勧めします。 ビジュアルスラムレビュー表2に、TUM RGB-Dデータセットの3つのシーンでのカメラ追跡結果の包括的な分析を示します。これは、RGB画像のスパース深度センサー情報や高モーションブラーなどの挑戦的な条件によってマークされています。キーベンチマークには、従来の手作りのベースラインを表すKintinous、Bad-Slam、Orb-Slam2などの確立された方法が含まれます。 表3は、Scannet Datasetの6つのシーンでのカメラ追跡方法の評価を示しています。 表4は、ScannetやTum RGB-Dなどの挑戦的なピアと比較して、高品質の画像を使用して、レプリカの8つのシーンでのカメラトラッキングを評価します。評価は、各シナリオのATE RMSE結果と平均結果を報告することで構成されています。 表5では、マッピング結果を提供し、3D再構成と2D深度推定の観点からレプリカデータセットのパフォーマンスを強調しています。 表6に、Point SlamとNice-Slamの標準的な評価方法に従って、レプリカのトレーニング入力ビューのレンダリング品質を示しています。 Lidar Slam/Odometry評価表7は、Kittiデータセット上のLidar Slamポリシーの評価を示しており、上部の臭気測定の精度と下部のスラムパフォーマンスメトリックを詳述しています。 表8は、ATE RMSEの観点から測定された新しい大学データセットの追跡精度を報告しています。 写真 表9は、新しいカレッジデータセットの3D再構成品質の結果を収集します。 パフォーマンス分析これまでにレビューされたSLAMシステムの効率を考慮することにより、実験的調査を締めくくります。これを行うには、公開されて利用可能なソースコードを使用してメソッドを実行し、1)GPUメモリ要件(GBでのピークメモリ使用量)と2)および単一のNVIDIA RTX 3090ボードで達成された平均FPS(単一のシーケンスを処理するのに必要な合計時間として計算され、その中の総数で除算)。表10は、レプリカで実行されているRGB-DおよびRGBシステムのベンチマーク結果を収集し、平均FPSの昇順でソートします。それに加えて、RGB-Dフレームワークを検討します。Splatamは画像のレンダリングが効率的であるが、同時にトラッキングとマッピングを処理するのがはるかに遅いことに気付くことができます。同じことは、階層機能グリッドを使用したハイブリッドアプローチにも当てはまります。一方、Splatamに比べて4〜5倍少ないGPUメモリがはるかに少ない必要があります。最後に、ハッシュされたグリッドやポイント機能などの高レベルの表現を使用すると、より速い処理を可能にすることができます。これは、Nerf-SlamがDim-Slamの6倍速いRGBのみの方法を研究することでも確認されます。最後に、Lidar Slamシステムに関しては、Pin-SlamがNerf Loamよりもはるかに効率的であり、7 fpsで実行中に7 GBのGPUメモリしか必要としないのに対し、Nerf Loamは1フレームあたり約12 GBと4秒を必要とします。 この分析は、新世代のスラムシステムによってもたらされる大きな約束にもかかわらず、それらのほとんどはハードウェアとランタイム要件の点でまだ不十分であり、まだリアルタイムアプリケーションの準備ができていないことを強調しています。 話し合うこのセクションでは、調査の主な調査結果を強調します。レビューされた最新のアプローチを通じて行われた重要な進捗状況の概要を説明し、フィールドでの現在の課題と将来の研究の潜在的な道を特定します。 シーン表現。シーン表現の選択は、現在のSLAMソリューションで重要であり、マッピング/追跡の精度、品質のレンダリング、および計算に大きな影響を与えます。 IMAPなどの初期の方法は、ネットワークベースのアプローチを使用して、座標ベースのMLPを使用してシーンを暗黙的にモデル化します。これらはコンパクトで継続的なシナリオモデリングを提供しますが、ローカルエリアの更新と大きなシナリオのスケーリングにおける課題により、リアルタイムで再構築することは困難です。さらに、彼らは過度に滑らかなシーンの再構築を生み出す傾向があります。その後の研究では、すでに人気のあるマルチ解像度の階層やスパースオクトリーメッシュなどのグリッドベースの表現を調査します。 MESHを使用すると、近隣の迅速な検索が可能になりますが、事前に指定されたグリッド解像度が必要であるため、自由空間での非効率的なメモリ使用量が生じ、解像度によって制限された細かい詳細をキャプチャする能力が限られています。ポイントスラムなどの最近の進歩は、ハイブリッドニューラルポイントベースの表現をサポートしています。グリッドとは異なり、ポイント密度は事前に指定することなく自然に変化します。ネットワークベースのアプローチと比較して、ポイントを表面に効果的に集中させながら、詳細に高密度を割り当て、スケーラビリティとローカル更新を促進することができます。ただし、他のnerfスタイルの方法と同様に、体積光線サンプリングはその効率を大幅に制限します。有望な技術には、3Dガウスのスプラッシュパラダイムに基づく明示的な表現が含まれます。これは、以前の表現と比較してより速いレンダリング/最適化を示すものです。しかし、さまざまな制限では、彼らは初期化に大きく依存しており、観察されていない地域の元の成長を制御していません。 過去3年間の大幅な進歩にもかかわらず、進行中の研究では、既存のシナリオ表現の制限を積極的に克服し、スラムの精度とリアルタイムのパフォーマンスを改善するためのより効果的な代替手段を見つけています。 悲惨な忘却。既存の方法は、特に大規模なシナリオまたは拡張ビデオシーケンスで、以前に学んだ情報を忘れる傾向を示すことがよくあります。ネットワークベースのアプローチの場合、これは、最適化中のグローバルな変化の影響を受ける固定容量を持つ単一のニューラルネットワークまたはグローバルモデルへの依存に起因します。この問題を軽減する一般的な方法は、履歴データからキーフレームを再生しながら、現在観測されているスパース光線サンプリングを使用してネットワークをトレーニングすることです。ただし、大規模な増分マッピングでは、この戦略はデータの蓄積の増加につながり、メモリ効率を改善するために複雑な再サンプリングプロセスが必要です。忘れられない問題は、グリッドベースのアプローチにまで及びます。この問題に対処する努力にもかかわらず、拡張性への課題を提示する二次または三次空間の複雑さのために依然として障害があります。同様に、明示的な表現(3DGSスタイルのソリューションなど)は壊滅的な忘却のための実用的なソリューションを提供しますが、特に大規模なシナリオでは、メモリ要件とゆっくりした処理のために課題に直面しています。いくつかの方法は、スパースフレームサンプリングを使用してこれらの制限を軽減しようとしますが、これにより、3Dスペース全体で非効率的な情報サンプリングにつながり、スパースレイサンプリングを統合する方法と比較して、モデルの更新が遅く、均一ではなくなります。 最終的に、いくつかの戦略は、環境をサブグラフに分割し、地元のスラムタスクをさまざまなエージェントに割り当てることを示唆しています。ただし、これは、複数の分散モデルを処理し、重複する領域を管理する効果的な戦略を設計し、マップ融合アーティファクトの発生を防ぐための追加の課題を提示します。 リアルタイム制限。テクノロジーの多くは、リアルタイム処理を達成する上で課題に直面しており、センサーフレームレートと一致することができないことがよくあります。この制限は、主に選択されたマップデータ構造または計算的に集中的な光線レンダリングに基づいた最適化によるもので、これはnerfスタイルのスラムアプローチで特に顕著です。特に、階層メッシュを使用したハイブリッドアプローチでは、GPUメモリが少なくなりますが、ランタイムのパフォーマンスが遅くなります。一方、ハッシュメッシュやスパースボクセルなどの高度な表現は、より高速な計算を可能にしますが、より多くのメモリが必要です。最後に、現在の3DGSスタイルのアプローチには高速画像レンダリングにおいて利点がありますが、マルチタイムトラッキングとマッピング処理を効果的に処理し、リアルタイムアプリケーションでの効果的な使用を妨げるのに苦労しています。 グローバルな最適化。 LCとグローバルBAの実装には、多くのコンピューティングリソースが必要であり、特にリアルタイムアプリケーションでパフォーマンスのボトルネックを危険にさらします。 3Dモデル全体を更新するという計算の複雑さが高いため、多くのレビューされたフレームからモデルへのアプローチは、閉ループとグローバルビーム調整の課題に直面しています。対照的に、フレームツーフレームテクノロジーは、報告された実験のように、バックグラウンドスレッドでグローバルBAを実行することによりグローバルな修正を促進します。どちらの方法でも、計算コストは、主に潜在的な特徴メッシュの柔軟性の欠如と、ループ閉鎖のポーズ補正に適応できないことによるものです。実際、これには機能メッシュを再配置し、ループを修正してポーズを更新した後、マップ全体を再整理する必要があります。ただし、処理フレームの数が増えると、この課題がより明白になり、カメラのドリフトエラーの蓄積につながり、最終的には3D再構成の一貫性がないか、再構築プロセスでの急速なクラッシュにつながります。 スラムのnerf vs.3DGS 。 NERFスタイルのSLAMは主にMLPに依存しており、新しいビューの合成、マッピング、追跡に適していますが、ピクセルあたりの光に依存するため、過度のスムージング、壊滅的な忘却、コンピューティングの非効率性などの課題に直面しています。 3DGSはピクセルの光ごとにバイパスし、原始での微分可能なラスター化を通じてスパースを利用します。これにより、SLAMの明示的なボリューム表現、高速レンダリング、豊富な最適化、直接勾配フロー、マップ容量の増加、および明示的な空間範囲制御が容易になります。したがって、NERFは新しいビューを合成する並外れた能力を示していますが、トレーニングの速度が遅く、スラムに適応するのが難しいことは大きな欠点です。 3DGは、効率的なレンダリング、明確な表現、豊富な最適化機能を備えた強力な代替手段となっています。その利点にもかかわらず、現在の3DGSスタイルのスラムアプローチにはまだ制限があります。これらの問題には、大規模なシナリオのスケーラビリティの問題、直接メッシュ抽出アルゴリズムの欠如、正確なジオメトリを正確にエンコードできないこと、観察されていない領域に対するガウス成長の制御不能な可能性が含まれ、レンダリングされたビューと基礎となる3D構造のアーティファクトが含まれます。 評価は一貫性がありませんでした。明確な評価プロトコルを備えた標準化されたベンチマークまたはオンラインサーバーの欠如は、一貫性のない評価方法、方法間の公正な比較の困難、およびさまざまな研究論文で提案されている方法の間の矛盾につながります。 Scannetなどのデータセットの課題は例示されています。ここでは、グラウンドフライポーズがバンドルフュージョンから派生しており、評価結果の信頼性と一般化性に関する懸念を引き起こします。さらに、レンダリングパフォーマンスを評価するためにトレーニングビューを入力として使用すると、特定の画像に過剰に適合するリスクに関する合理的な懸念が生じます。 SLAMコンテキストでの新しいビューレンダリングを評価し、より堅牢な研究結果のためにこれらの問題に対処することの重要性を強調するための代替アプローチを探求する必要性を強調します。 その他の課題。従来の、深い学習ベースであろうと、放射線界の表現の影響を受けているかどうかにかかわらず、SLAMメソッドは、共通の課題に直面しています。顕著な障害の1つは、動的なシナリオの取り扱いです。これは、静的環境の基本的な仮定のために困難であることが証明されており、再構築シナリオのアーティファクトと追跡のエラーが発生します。いくつかの方法はこの問題を解決しようとしますが、特に非常に動的な環境では、改善の余地がまだたくさんあります。 もう1つの課題は、モーションブラー、深さノイズ、暴力的な回転など、センサーノイズに対する感度です。これらはすべて、追跡とマッピングの精度に影響します。この状況は、ガラスや金属の表面などのシーン内に非ランベルトのオブジェクトが存在することにより、さらに悪化し、反射特性の変化により複雑さをもたらします。これらの課題の文脈では、多くのアプローチが入力パターンの明確な不確実性の推定値を無視し、システムの信頼性の包括的な理解を妨げることが多いことは注目に値します。 さらに、外部センサーの不足、特に深さ情報は、RGBのみのスラムの基本的な問題を提示し、深さのぼかしと3D再構成の最適化収束の問題をもたらします。 それほど重要ではあるが具体的な問題は、シーンのレンダリングされた画像の品質です。モデルのビューオリエンテーションのモデリングがないため、レンダリング品質に影響を与えるため、レビューされたテクニックは、鏡面反射などのビューに関連する外観要素に対処するのに苦労しています。 結論は要するに、このレビューは、放射線現場の表現における最新の進捗状況の影響を受けたSLAMメソッドの調査を開拓しました。 IMAPなどの画期的な作品から最新の開発まで、このレビューは、わずか3年で出現した大量の文献を明らかにしています。構造化された分類と分析を通じて、重要な制限と革新を強調し、追跡、描画、レンダリングのための貴重な洞察と比較結果を提供します。また、現在の未回答の課題を特定し、将来の探査のための興味深い道を提供します。 したがって、この調査は、初心者と経験豊富な専門家に重要なガイダンスを提供して、この急速に発展している分野の包括的な参照にするように設計されています。 |
<<: GitHub、企業向けAI搭載コーディングアシスタント「Copilot Enterprise」をリリース
>>: Think2Drive: 自動運転のための初のモデルベース RL 手法 (上海交通大学)
AI 競争が始まっており、世界中の企業が AI ベースのイノベーションにおける世界的優位性を求めて競...
ChatGPT には、「Consensus」と呼ばれる新しい「論文検索アーティファクト」プラグインが...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
この記事では主に、機械学習プロジェクトの編成と管理に関する実践的な経験をいくつか紹介します。パイソン...
過去 1 年間で、人工知能 (AI) は私たちの日常生活のより大きな部分を占めるようになり、さまざま...
[[359773]] AI テクノロジーを導入している多くの組織は、成功を収めるどころか、テクノロジ...
[[196544]]最近、カリフォルニア大学サンタクルーズ校 (UCSC) の Stewart 研究...
[[417111]] AI と IoT ほどエキサイティングで重要なテクノロジーの組み合わせはほと...
大規模言語モデル (LLM) には、これまでにない言語理解および生成機能が備わっていますが、これらの...
10月6日、EngadgetやWiredなどの海外メディアの報道によると、メリーランド大学の研究チー...
北京時間3月11日、外国メディアの報道によると、科学者らは最近、「人間の脳に潜り込み」、どのような顔...
9月11日午前、北京人工知能研究院会長の張宏江博士がHICOOL 2021グローバル起業家サミットに...