チューリング賞受賞者のヤン・ルカン氏は、公開インタビューで、現在のAIモデルの学習効率は人間の赤ちゃんに比べてはるかに低すぎると繰り返し述べています。では、赤ちゃんの頭に取り付けられたカメラが何を見ているかを AI モデルに学習させるとしたら、何を学習できるのでしょうか? 最近、サイエンス誌の論文で予備的な試みがなされました。研究では、データが限られている場合でも、AI モデルは 10 ~ 100 の例から単語と視覚的指示対象とのマッピングを学習でき、サンプルがゼロの新しい視覚データセットに一般化してマルチモーダル アライメントを実現できることがわかりました。これは、今日の AI ツールを使用すれば、赤ちゃんの視点からの真の言語学習が可能であることを示しています。 年齢2歳、教師経験1年半サムはどうやって AI に学習を教えるのでしょうか?今回は、AIが赤ちゃんの目を通して世界を見て言語を学びます。 ニューラル ネットワークは、人間の幼児の視覚体験を利用して物体を認識することを自ら学習し、人間の学習に関する新たな洞察を提供しています。 AIはサムが装着したヘルメットに取り付けられたカメラで捉えた音声と映像から学習します。 乳児が「ボール」という言葉を聞くと、その言葉の意味を丸くて弾力のある物体(つまり、正しい視覚的指示対象)とどのように結び付けるのでしょうか。哲学者や認知科学者は、乳児が新しい単語を学ぶとき、多くの候補単語の中から正しい意味を選ぶ必要があることに同意しています。 赤ちゃんは言葉を覚えるのがとても上手です。生後6~9か月の間に、赤ちゃんは目の前にある物体と言葉を関連付け始めます。 18〜24か月になると、約300語を理解できるようになります。 では、子どもたちはどのようにして目の前にある物の名前を素早く覚えるのでしょうか?物体の意味とその視覚的外観との間のつながりをどのように確立するのでしょうか?これらの問題については、さらなる調査と研究が必要です。 これまで、いくつかの関連理論が実験で検証されてきました。一部の学者は、単語学習はさまざまな分野を結び付けることができる単純な連想学習メカニズムによって推進されると考えています。しかし、これらの理論は通常、乳児の成長のさまざまな段階で測定されており、単語学習を促進する特定の要因の相対的な重要性を明らかにすることはできず、また、計算モデルを構築して、コンピュータモデルが人間のような学習能力を獲得するためのガイダンスを提供するために使用することもできません。 モデルが子供の目と耳を通して世界を認識できる場合、連合学習理論が人間の言葉の学習能力を説明するように、オブジェクト表現に基づく連合学習を通じて、オブジェクトの形状と意味を理解し、統合できるでしょうか?それとも、この能力を有効にするには、帰納的バイアスなどの他の認知能力の使用が必要ですか? これらの疑問に答えるために、ニューヨーク大学の研究者たちは、単語学習の最も単純な理論を前例のないテストにかけた。彼らは赤ちゃんの頭にカメラを取り付け、カメラのビデオ録画からモデルが単語とその視覚的指示対象との対応関係を学習できるかどうかを調べた。 このカメラを装着しているのはオーストラリア出身のサム君で、生後6か月から2歳くらいまで、週に2時間(起きている時間の約1%)装着していました。 研究チームはサムのビデオに基づいてSAYCam-Sデータセットを作成しました。彼らは、600,000 のビデオ フレームと 37,500 の書き起こされた音声録音を含む 61 時間分の映像を選択し、約 250,000 の単語インスタンスとそれに対応する画像を記録しました。これらの画像は、遊んだり、読書したり、食事をしたりする活動中にサムが撮影したものです。 研究チームはこれらのデータに基づいてニューラルネットワークをトレーニングし、子どもの視点対比学習モデルCVCLを取得しました。 CVCL は対照学習を使用して、どの画像とテキストが頻繁に一緒に表示され、どの画像とテキストが頻繁に一緒に表示されないかを学習し、特定の単語 (「ボール」や「ボウル」など) がどの画像を指しているのかを予測する機能を獲得します。 研究では、 CVCL は子供の限られた経験の断片からマルチモーダル表現を完全に学習できることがわかりました。 CVCL は、分類タスクにおいてさまざまな日常語を対応する視覚的指示対象と一致させ、視覚的概念と言語的概念を大規模に調整し、この機能をトレーニング中には見られなかった新しい例に一般化することができます。この研究は、ドメイン全般の連想学習メカニズムと組み合わせたマルチモーダル表現学習が、コンピュータによる単語学習に画期的な進歩をもたらす可能性があることを示しています。 具体的には、研究者らはマルチモーダルモデル研究の最新の進歩に基づいて CVCL を設計しました。 CVCL は、対照的な目的を使用して、視覚エンコーダーと言語エンコーダーという 2 つのニューラル ネットワークを調整し、表現学習と連想学習を統合します。 図 1 に示すように、コントラストターゲットは自己教師あり方式でトレーニングされます (つまり、外部注釈なしで、子供の視点からの録音のみが使用されます)。モデルは、ビデオフレームと言語セグメント内のターゲットの共起をベクトルに変換して抽出し、それらを正例として扱います。同時に、非共起をベクトルに変換して分離し、それらを暗黙の負例として扱います。 正の例を抽出した後、CVCL はこれらの時間ベクトルを学習信号に変換し、マルチモーダル表現を学習および調整します。この方法では、単語の意味に関する制限や、視覚的指示対象の事前リストは必要ありません。乳児が録画したビデオから、単語とその視覚的指示対象の多くの基本的な組み合わせを復元できます。 CVCLで習得した語彙を評価する対応する視覚的指示対象の結果トレーニング後、研究チームは、CVCL とさまざまな類似モデルによって学習された単語と視覚的指示対象の組み合わせの品質を評価しました。研究チームは、子供向けの一般的なテストに基づいて、モデルにターゲット カテゴリ ラベルを提示し、ラベルとのコサイン類似度に基づいて 4 つの候補画像から対応する視覚的指示対象を選択するように依頼しました。 図 2A はラベル S のテスト結果を示しています。全体として、CVCL の分類精度は 61.6% です。図 2D は、異なるラベルでのモデルの具体的な結果を示しています。22 の概念のうち、11 の概念に対する CVCL の判断は、CLIP との差が 5% 未満でした。ただし、CLIP トレーニングに使用されるデータの量 (インターネットからの 4 億個の画像とテキストのペア) は、CVCL よりもはるかに大きくなります。分類の重複などの潜在的な問題に対処するため、研究チームはその後の評価のためにサブセットを手動で選別しました。 CVCL が単語の意味を捉える能力の上限と下限を決定するために、研究チームは同様のモデルに対しても実験を行いました。モデルの言語と視覚情報を一致させる能力をテストするために、研究チームは、元のデータセットでターゲットオブジェクトが一緒に表示されるビデオフレームと録画をシャッフルし、CVCL-Shuffledと呼ばれるモデルのバリエーションを再トレーニングしました。シャッフルされたモデルのパフォーマンスは低く、モデル学習における視覚情報と言語情報の共起が重要な役割を果たしていることを示しています。 視覚的埋め込みの有効性をテストするために、研究者はトレーニング中に CVCL の視覚エンコーダーをランダムにフリーズしました。モデルは「砂」や「車」などのいくつかの概念を習得しましたが、図 2D に示すように、そのパフォーマンスは再び大幅に低下しました (M = 38.0%)。 研究者らは、CVCL を、他のデータや、子どもの語彙の範囲を超えたオラクル データでトレーニングされた AI モデルと比較しました。 CLIP の精度は 66.7% に達し、CVCL より 5.1% 高くなりました。これは、CLIP が「キッチン」、「おもちゃ」、「バスケット」などのいくつかの単語の意味をよりよく理解したためです。 上記のテストを通じて、一定の範囲内でテストした場合、CVCL のパフォーマンスはインターネット規模のデータでトレーニングされたモデルのパフォーマンスに匹敵することがわかります。 さらに研究者らは、子供たちを導く特定の文章に基づいて判断するのではなく、モデルが単語を独立して分類できるかどうかをテストした。彼らは、初期化された事前トレーニング済みエンコーダーに線形分類器を適合させて、線形プローブ モデルを取得しました。新しいモデルの精度は 81.6% に達し、CVCL が独立した判断能力を持っていることを示しています。 研究チームは、会話の中で自然に出てくる単語と、モデルのトレーニング用に直接ラベル付けされた例の価値を定量化しました。図 2B に示すように、手動で注釈を付けたデータ (ラベル付きデータの 10% と 1%) を使用して 2 つの Linear Probe モデルをトレーニングし、テスト結果を次の表に示します。 手動でラベル付けされたデータが削減された Linear Probe モデルでは、分類精度がそれぞれ 77.2% と 65.9% に低下しました。ラベル付けされた例の 1% を使用するモデルは、CVCL よりもわずかに優れたパフォーマンスを発揮します。比較すると、人間による注釈 1 つは、自然言語からの少なくとも 7 つの例に相当すると控えめに見積もることができます。しかし、自然言語からのデータは、子供たちが学ぶ内容をより柔軟かつ正確に表現し、無制限の数の視覚的概念に対応できます。 他の要因が単語と視覚的指示対象の組み合わせの学習可能性に影響を与えるかどうかを調査するために、研究チームは評価のために CVCL モデルの他のバリエーションもトレーニングしました。モデル構造やトレーニング手順のさまざまな側面を変えてみましたが、どのバリエーションも CVCL 自体を上回るパフォーマンスを発揮しませんでした。 総合すると、これらの結果は、人間が最初に、自然に発生する 10 ~ 100 個の単語と視覚的指示対象の組み合わせのプールから単語と視覚的指示対象の組み合わせを学習することを示唆しています。 新しい視覚的インスタンスへの一般化CVCL の一般化能力をテストするために、研究チームは Konkle Objects データセットで実験を実施しました。 研究チームは、幼児の言語学習を研究する実験にヒントを得て、CVCL に、白い背景に置かれた単一の物体の画像 64 枚を追加で提供しました。これらの画像に対応する単語はすべて CVCL の語彙に含まれていました。この実験により、研究チームは、CVCL によって学習された単語が目に見えない物体にうまく一般化できるかどうかを調べることができました。 図 3A に示すように、CVCL にはある程度の一般化能力があり、64 個のオブジェクトのうち 16 個が 50% を超えるスコア (正解) を獲得し、さらに 42 個の概念が 25% を超えるスコア (確率) を獲得し、全体的な精度は 34.7% でした。 さらに、両方の CVCL モデルバリアントは偶然の精度に近い (CVCL-Shuffled モデルと CVCL-Random Features モデルではそれぞれ 25.6% と 23.4%) 一方で、最高のパフォーマンスは現在の SOTA 方法に近い (CLIP モデルと Linear Probe モデルではそれぞれ 99.4% と 90.7%)。 これらの結果は、CVCL のマルチモーダル表現が分布外一般化を可能にする方法を示しており、この機能の他のより大規模な実証と一致しています。この評価に必要な視覚的一般化の程度を説明するために、図 3B は、発話に埋め込まれた単語の自然なトレーニング例 (子供の視点から) と、評価に使用された新しいテスト画像 (およびその分類精度) を示しています。さらに、この評価は、古典的な乳児の語彙学習実験で提示される刺激の種類と非常によく似ており、実験室外で獲得されたパフォーマンスは、乳児が実験室内の視覚刺激から新しい刺激へと一般化する仕組みを説明するのに十分であることを示唆しています。 マルチモーダル表現の構成最後に、CVCL で学習されたマルチモーダル表現構造の 3 つの分析ファミリを紹介します。 最初に検討された質問は、CVCL の視覚的概念システムと言語的概念システムがどの程度一貫しているかということでした。たとえば、「車」の視覚的埋め込みと単語埋め込みの両方が独立して「ボール」よりも「道路」に類似している場合、それはマルチモーダルアライメントが良好であることを示します。 研究者は、Labeled-S の 22 の概念を使用して、注釈付きフレームを 100 個ランダムに選択し、その画像埋め込みを抽出し、フレーム間で各概念の視覚プロトタイプの平均を算出しました。また、各概念に対応する単語の埋め込みも取得しました。次に、これらの埋め込み(モダリティ内とモダリティ間の両方)間のすべてのコサイン類似度を計算し、図 4A と B に示すように、t 分布確率的近傍埋め込み (t-SNE) を使用してそれらの関係を視覚化しました。図 4A では、破線は各概念の対応する視覚的重心と単語の埋め込みの間の距離を表しています。 これらのクロスモーダル距離の多くは小さかったため、概念間のモーダル内類似性(コサイン経由)が視覚と言語間で相関しているかどうかを調べたところ、概念の整合性が有意な程度にあることがわかりました(相関係数 r = 0.37、p < 0.001)。 これらの関係はCVCLの2つの下限値のどちらにも当てはまりません(図S4)。さらに、アライメント距離は分類パフォーマンスとも強い負の相関関係にあり (r = -0.65、p = 0.001)、最も精度の低いクラスのいくつかは、それぞれの視覚プロトタイプと単語埋め込みの間の距離が最も大きいことを示しています。図 4B は、各概念のラベル付き画像埋め込みのサブセットを示しており、異なる視覚概念が、例がどの程度密にクラスター化されているかによって異なることを強調しています。視覚的変動を概念の視覚的埋め込みとその視覚的プロトタイプ間の平均ユークリッド距離として見ると、分類パフォーマンスとの強い負の相関関係も見つかりました (r = -0.48、p = 0.025)。これは、CVCL が「手」や「おもちゃ」などの単語参照マッピングを処理するのが難しいのは、「車」や「ベビーベッド」などの密接にクラスター化された概念と比較した視覚的変動に関連していることを示唆しています。 次に、CVCL でさまざまな単語埋め込みが画像埋め込みとどのように相互作用するかを視覚化しました (図 4C)。 3 つの異なる概念を調べたところ、モデルによって特定の単語埋め込みに最も類似していると予測された画像 (緑色で表示) が、各カテゴリの実際の注釈付き画像のセット (青色で表示) に非常に近いことがわかりました。概念の完全なセットは、図 S6 に示されています。 CVCL は、単語ごとに 1 つのベクトルのみを使用しているにもかかわらず、視覚的に類似した項目の異なるセットを概念の異なるサブクラスターとして表現することを学習することがわかりました。たとえば、「階段」の単語の埋め込みは、屋内と屋外の階段を表す 2 つの別々のクラスターを最も強く活性化しますが、「パズル」は、文字と動物のパズルを表す 2 つの追加クラスターを生成します。概念学習に関するこれまでの心理学理論では、通常、概念内のサブ構造を捉えるための明示的な組み込みメカニズムが必要でしたが、CVCL では、対照学習を通じてマルチクラスター表現が暗黙的に出現することがわかりました。 研究者らはまた、CVCL が指示対象を特定する能力を定性的に調査しました。特定の画像に対して、Grad-CAM を適用することで注目マップが取得されます。Grad-CAM は、最終的な畳み込み層の特徴マップの加重合計を計算することで (特徴マップの空間平均に対する画像とテキストのコサイン類似度の勾配に基づく重みを使用して)、ターゲット カテゴリに最も関連性の高い画像領域を強調表示します。研究者はこの注目マップを画像に重ねて、参照された場所と注目マップの間の対応関係を調べることができます。 図 5 は、4 つの概念に対する複数の注意マップの例を示しています。いくつかのカテゴリでは、CVCL の注意マップはオブジェクトの位置の証拠を提供します。注意マップ内で最も活性化された領域は、参照対象の位置を厳密に追跡します。 研究の詳細については原著論文を参照してください。 |
<<: 大型モデルの中に泥棒はいますか?上海交通大学は、パラメータを保護するために、大規模モデル用の「人間が読める指紋」を作成します
>>: UCLA Chineseが新しい自動演奏メカニズムを提案しました! LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている
[[202181]] 2015年、同社のエンジニアリング担当副社長であるXavier Amatri...
政府は、他の経済的、社会的進歩と同様に、AI とデータの競争力を重視すべきです。研究への投資や技術リ...
報道によると、権威ある調査機関ガートナーは本日発表したホワイトペーパーで、投資家による人工知能(AI...
5月5日、ハルビン工業大学(HIT)人工知能研究所の除幕式と「知能・未来創造」ハイエンド人工知能フォ...
現段階では、Sora に追いつくことが多くのテクノロジー企業の新たな目標となっている。研究者たちが興...
[51CTO.com からのオリジナル記事] 歴史が示しているように、コンテンツの各形態は多数のイン...
Google Gemini はどれほど強力ですか?カーネギーメロン大学は、専門的かつ客観的な第三者...
人工知能アルゴリズムやディープラーニングなどのさまざまな技術の徹底的な発展により、人工知能(AI)は...