Googleの華博士がICCV2021で新モデルを発表、卵を泡立てるだけでパンケーキを作りたいかどうかがわかる

Googleの華博士がICCV2021で新モデルを発表、卵を泡立てるだけでパンケーキを作りたいかどうかがわかる

機械学習モデルが現実世界でますます使用され、導入されるようになると、AI の意思決定は人々の日常生活における意思決定を支援するためにも使用されるようになります。

コンピュータービジョンの分野における意思決定プロセスでは、予測が常に中心的な問題となっています。

さまざまな時間スケールで将来について合理的な予測を行う方法も、これらの機械モデルの重要な機能の 1 つです。この機能により、モデルは他のモデルの動作を含む周囲の世界の変化を予測し、次のアクションと決定を計画できます。

[[436641]]

さらに重要なのは、将来予測を成功させるには、環境内のオブジェクトにおける意味のある変化を捉えることと、意思決定や予測を行うために環境が時間の経過とともにどのように変化するかを理解することの両方が必要であるということです。

コンピューター ビジョンにおける将来予測の取り組みは、主にその出力の形式に制限されており、出力は画像のピクセルまたは手動で事前定義されたラベル (たとえば、誰かが歩き続けるか、座るかなどを予測する) になります。

これらの予測は詳細すぎるため、完全に予測することはできず、現実世界の豊富な情報を効果的に活用することができません。言い換えれば、モデルが「ジャンプ行動」を予測する時点で、なぜジャンプするのか、何をジャンプするのかを知らなければ、予測は成功せず、結果は基本的にランダムな推測になってしまいます。

さらに、ごくわずかな例外を除いて、以前のモデルは将来の固定オフセットで予測を行うように設計されており、動的な時間間隔で予測を行うことはできませんが、意味のある将来の状態がいつ発生するかはほとんどわからないため、これは制限的な仮定です。

アイスクリームを作るビデオでは、ビデオ内のクリームからアイスクリームまでの時間間隔は 35 秒なので、この変化を予測するモデルは 35 秒先を予測する必要があります。しかし、この間隔は、さまざまな行動や動画によって大きく異なります。たとえば、ブロガーの中には、アイスクリームをより細かく作るために、より多くの時間と時間を費やす人もいますが、これは、アイスクリームが将来のいつでも作られる可能性があることを意味します。

さらに、このようなビデオのフレームごとの注釈は、数百万単位で大規模に収集することができ、多くの教育ビデオには、ビデオ全体にわたって簡潔で一般的な説明を提供する音声の書き起こしが含まれていることがよくあります。このデータ ソースは、モデルがビデオの重要な部分に焦点を当てるようにガイドし、手動で注釈を付けることなく、将来のイベントに関する柔軟なデータ駆動型の予測を可能にします。

このアイデアに基づいて、Google は ICCV 2021 で記事を発表し、大規模なラベルなしの人間活動データセットを使用した自己教師あり学習法を提案しました。開発されたモデルは高度に抽象化されており、任意の時間間隔で将来の長期予測を行うことができ、コンテキストに基づいて将来の長期予測を選択できます。

このモデルには、マルチモーダル サイクル一貫性 (MMCC) 目的関数があり、物語形式の教育ビデオを使用して強力な将来予測モデルを学習できます。研究者らはまた、微調整なしで MMCC をさまざまな困難なタスクに適用する方法を示し、その予測に関する定量的なテスト実験を実施しました。

この記事の著者であるチェン・サンは、Google とブラウン大学出身です。現在はブラウン大学でコンピューターサイエンスの助教授を務め、コンピュータービジョン、機械学習、人工知能を研究しています。また、Google Research の研究科学者でもあります。

彼は2016年に南カリフォルニア大学でラム・ネヴァティア教授の指導の下、博士号を取得し、2011年に清華大学でコンピューターサイエンスの学士号を取得しました。

進行中の研究プロジェクトには、ラベルのないビデオからのマルチモーダル表現と視覚コミュニケーションの学習、人間の活動、オブジェクト、およびそれらの時間の経過に伴う相互作用の認識、および具現化されたエージェントへの表現の転送が含まれます。

[[436642]]

この研究は主に、将来予測の 3 つの中核的な問題を取り上げています。

1. ビデオ内の時間的関係を手動で注釈付けすることは非常に時間がかかり、労力もかかるため、ラベルの正確性を定義することは困難です。したがって、実用的なアプリケーションを実現するには、モデルが大量のラベルなしデータからイベントの変換を自律的に学習して発見できる必要があります。

2. 現実世界における複雑で長期的なイベント変換をエンコードするには、画像内のピクセルだけではなく、抽象的な潜在表現によく見られる高レベルの概念を学習する必要があります。

3. 時系列におけるイベントの変換はコンテキストに大きく依存するため、モデルはさまざまな時間間隔で将来を予測できる必要があります。

これらのニーズを満たすために、研究者らは新しい自己教師ありトレーニング目的関数 MMCC と、この問題を解決するための表現を学習するモデルを導入しました。

モデルは、物語ビデオのサンプル フレームから開始して、すべての物語テキスト内で関連する言語発話を見つける方法を学習します。視覚的モダリティとテキスト モダリティの両方を組み合わせることで、モデルはビデオ全体を使用して、潜在的な将来のイベントを予測し、フレームの対応する言語説明を推定する方法を学習し、同様の方法で過去のフレームの機能を予測することを学習できます。

サイクル制約では、最終的なモデル予測が開始フレームと等しいことが要求されます。

一方、モデルは入力データがどのモダリティから来ているのかわからないため、視覚と言語を共同で操作する必要があり、将来の予測のための低レベルのフレームワークを選択することはできません。

モデルは、すべての視覚ノードとテキスト ノードの埋め込みを学習し、開始ノードに対応する他のモダリティのクロスモーダル ノードを慎重に計算します。両方のノードの表現は完全に接続されたレイヤーに変換され、初期モダリティでの注意を使用して将来のフレームを予測します。次に、逆方向のプロセスが繰り返され、開始ノードを予測してモデルの最終出力をトレーニングすることでモデル損失が完了し、サイクルが終了します。

実験部分では、これまでのベンチマークのほとんどが固定カテゴリと時間オフセットによる教師あり行動予測に焦点を当てているため、本論文では研究者らがさまざまな方法を評価するため、一連の新しい定性的および定量的実験を設計しました。

まずデータですが、研究者たちは制約のない現実世界のビデオデータでモデルをトレーニングしました。私たちは、約 123 万本のビデオと自動的に抽出された音声トランスクリプトを含む HowTo100M データセットのサブセットを使用します。このデータセット内のビデオは、主題領域ごとに大まかに分類されており、データセット内のビデオの約 4 分の 1 に相当する「レシピ」として分類されたビデオのみが使用されます。

338,033 本のレシピ動画のうち、80% がトレーニング セット、15% が検証セット、5% がテスト セットに含まれています。レシピ動画には、複雑なオブジェクト、操作、状態遷移が豊富に含まれており、このサブセットにより、開発者はモデルをより速くトレーニングできます。

より制御されたテストを実施するために、研究者らは、タスク固有の注釈が付いた類似のビデオを含む CrossTask データセットを使用しました。

すべてのビデオは、パンケーキを作るなどのタスクに関連しており、各タスクには、豊富で長期的な相互依存関係を持つ高レベルのサブタスクの定義済みシーケンスがあります。たとえば、ボウルに卵を割り入れてシロップを加える前に、ボウルで生地を混ぜる必要があります。

モデルのアクション予測能力は、TOP-K リコール メトリックを使用して評価されます。このメトリックは、モデルの正しい未来予測能力を測定します (数値が高いほど優れています)。

MMCC の場合、ビデオ全体の時間の経過に伴うイベントの意味のある変化を判断するために、研究者はモデルの予測に基づいてビデオ内のフレームの各ペアの可能な遷移スコアを定義しました。予測されたフレームが実際のフレームに近いほど、スコアが高くなります。

<<:  人工知能: ナノスケールでの細胞構造の発見

>>:  Yan Shuicheng氏は、Transformerのパワーがそのアーキテクチャから生まれることを証明する「恥ずかしいほどシンプルな」モデルを公開した。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Wolfram言語の父: ChatGPT は何ができるのか?

写真ChatGPT は非常に人気が高まり、人間の働き方や考え方さえも変え始めています。それを十分に理...

...

...

...

2020 年に最も実用的な機械学習ツールは何ですか?

ミシュランの星付き料理を作るときと同じように、整理整頓されたキッチンを持つことは重要ですが、選択肢が...

...

AI 異常検出は企業にどのようなメリットをもたらすのでしょうか?

翻訳者 |陳俊レビュー | Chonglou異常検出は、企業が競合他社よりも先に今後のトレンドを特定...

闇の奥:人工知能の奥にはどんな闇が隠されているのか?

4月13日、TechnologyReviewによると、ロボットが倉庫への特定のルートを取ることを決...

インテルの宋吉強氏:AIは爆発の臨界点に達しており、今年中に専用チップを発売する予定

インテルとニューインテリジェンスが共同で開催した2017年ニューインテリジェンスオープンソースエコシ...

スタンフォード大学がトランプ政権のCTOと会談: AI、移民、技術インフラなどについて

[[282007]] ▲写真:スタンフォード大学のアイリーン・ドナホー氏(左)が、米国政府の最高技術...

鄒聖龍が初めて人工知能について公に語り、荀雷の将来の計画が明らかにされた

「ビジネスを運営する観点から見ると、人工知能には2つの陣営があります。1つは人工知能プラットフォーム...

分析技術は、2019-nCoVの潜在的な感染を追跡し予測するのに役立っています。

[[314175]] 2019-nCoVの最も危険な特徴は人から人へと感染する能力であり、中国では...

2つのセッションは「AI顔認識」と生体認証データの法制化と規制の緊急の必要性に焦点を当てています。

[[385416]]現在、両セッションは活発に行われており、全国のさまざまな分野の代表者が独自の提...

肖像情報セキュリティには「内部と外部の共同管理」が必要

防疫期間中、マスクの着用は人々の日常の外出に必須の装備となった。マスク着用者の顔認識技術が実際に活用...