コンピューター ビジョンの GPT の瞬間が到来しました。 最近、カリフォルニア大学バークレー校のコンピュータービジョンの「ビッグスリー」が共同で、自然言語を使用しない初の大規模ビジョンモデルを発表し、純粋なビジョンモデル自体もスケーラブルであることを初めて証明しました。 さらに、研究者らは4200億トークンを超えるデータセットも使用し、モデルがコンテキスト学習を通じて下流のタスクを理解して実行できるようにし、写真/ビデオ、教師あり/教師なし、合成/実物、2D/3D/4Dなど、ほぼすべてのデータ形式を統一しました。 論文アドレス: https://arxiv.org/abs/2312.00785 非言語 IQ テスト (Raven の漸進的マトリックス) でよく見られる非言語推論の質問を LVM に実行させると、正しい推論を行うことが多いことは特筆に値します。 これに対して研究者たちは、これは LVM も「AGI のひらめき」を示したことを意味するかもしれないと驚きを表明しました。 純粋ビジュアルモデルの反撃現在、大規模な言語モデルの爆発的な増加に伴い、学界と産業界の両方が「テキスト」を使用して視覚モデルの規模を拡大しようとし始めています。 GPT4-V を含む SOTA モデルは、視覚とテキストを組み合わせてトレーニングされます。 「リンゴ」を例にとると、この方法では、トレーニング中にモデルに「リンゴの写真」を表示するだけでなく、「これはリンゴです」というテキストも追加します。 しかし、より複雑な画像に直面すると、多くの情報を見逃してしまいがちです。 たとえば、「モナ・リザ」はどのように説明すればよいでしょうか?あるいは、さまざまなアイテムが詰まったキッチンの写真を、明確に説明するのは難しいです。 これを受けて、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究者らは、言語データを一切使用せずに大規模な視覚モデルをトレーニングできる新しい「視覚シーケンス」モデリング手法を提案した。 「ビジュアル シーケンス」と呼ばれるこのユニバーサル フォーマットは、ピクセルを超えるメタ知識を必要とせずに、生の画像やビデオ、およびセマンティック セグメンテーションや深度再構築などの注釈付きデータ ソースを表すことができます。 このような膨大な視覚データ (4,200 億トークン) がシーケンスとして表現されると、次のトークン予測のクロスエントロピー損失を最小限に抑えるようにモデルをトレーニングできます。 結果として得られる LVM モデルは、さまざまな視覚タスクを完了するために効果的に拡張できるだけでなく、計数、推論、知能テストの受験などの機能をさらに開発することもできます。 左: アレクセイ A エフロス、中央: トレバー ダレル、右: ジテンドラ マリク 簡単に言えば、大規模な視覚モデルは、言語データにまったく依存することなく、トレーニング用の画像を見るだけで複雑な視覚情報を理解して処理できます。 純粋視覚モデルのスケーリング問題以前、事前トレーニング済みモデル (ImageNet で事前トレーニングされた AlexNet など) を使用することの価値は、2015 年にはすでに R-CNN で実証されていました。 それ以来、これはコンピューター ビジョンにおける標準的な手法となりました。 事前トレーニングに利用できるデータの量を大幅に増やす方法として、自己教師あり事前トレーニングが提案されています。 残念ながら、このアプローチはあまり成功しませんでした。おそらく、当時の CNN ベースのアーキテクチャはデータを吸収するのに十分なパワーがなかったためです。 Transformer の導入により、その能力は大幅に向上したため、研究者は自己教師あり事前トレーニングを再検討し、BEiT、MAE、SimMIM などの Transformer ベースのマスク画像再構成手法を発見しました。これらの手法は、CNN ベースの手法よりもはるかに優れたパフォーマンスを発揮します。 しかし、それにもかかわらず、現在の事前トレーニング済みの視覚のみのモデルでは、LAION などの本当に大規模なデータセットに拡張することが依然として困難です。 「大きなビジュアルモデル」を構築する方法では、大規模ビジョンモデル (LVM) を構築するにはどのような要素が必要でしょうか? 動物界は、視覚能力が言語に依存しないことを示しています。多くの実験により、人間以外の霊長類の視覚世界は人間の視覚世界と非常に似ていることが示されています。 したがって、この論文は視覚言語モデル LLaVA とは異なる方向に進んでいます。つまり、ピクセルだけに頼ってどこまでできるのかということです。 研究者たちは、LLM の 2 つの主要機能 ((1) 大規模データセットへの拡張性、(2) ヒントによる柔軟なタスク指定 (コンテキスト学習)) を LVM でエミュレートしようと試みました。 この目標を達成するには、次の 3 つの主要コンポーネントを特定する必要があります。 データ:研究者は視覚データの驚くべき多様性を活用したいと考えています。 1 つ目は、ラベルのない生の画像とビデオです。次に、研究者たちは、セマンティックセグメンテーション、深度再構築、キーポイント、3Dオブジェクトの複数のビューなど、過去数十年間に生成されたさまざまな注釈付き視覚データリソースを活用する予定です。 これを実現するために、研究者たちは、ピクセル自体以外のメタ知識を必要とせずに、これらのさまざまな注釈を表す「ビジュアル シーケンス」と呼ばれる共通形式を定義しました。トレーニング データセットには合計 1 億 6,400 万枚の画像/フレームが含まれています。 アーキテクチャ:研究者は、トークンのシーケンスとして表される視覚データでトレーニングされた、30 億のパラメータを持つ大規模な Transformer アーキテクチャを使用しました。 学習されたトークナイザーを通じて、各画像は 256 個のベクトル量子化トークンを含む文字列にマッピングされます。 損失関数:研究者たちは、マスクされたトークン モデルが順次自己回帰予測に進化した自然言語処理の分野からインスピレーションを得ました。 画像/ビデオ/注釈付き画像をシーケンスとして表現できるようになると、次のトークンを予測する際のクロスエントロピー損失を最小限に抑えるようにモデルをトレーニングできます。 このミニマリストなデザインを通じて、研究者たちはいくつかの新しい発見をしました。 - モデルのサイズとデータ サイズが増加すると、モデルは適切なスケーリング動作を示します。 - テスト時に適切な視覚的な手がかりを設計することで、さまざまな視覚タスクを解決できます。 - 大量の教師なしデータにより、さまざまな標準的な視覚タスクのパフォーマンスが大幅に向上します。 - このモデルは、分布外データの処理や新しいタスクの実行時に一般的な視覚的推論機能を示していますが、さらなる調査が必要です。 データ
大規模な事前トレーニング済みモデルの鍵は、大量のデータでトレーニングする必要があることです。 言語モデルの場合、大規模で非常に多様なデータセットを簡単に取得できます。 たとえば、Web 全体からスキャンされた 2,500 億の Web ページを含む人気の CommonCrawl リポジトリは、非常に多様性に富み、言語翻訳や質問への回答などの「自然なデモンストレーション」も含まれています。 しかし、コンピューター ビジョンの分野では、同じ規模と多様性を備えたデータ ソースを実現するにはまだ遠い道のりです。 したがって、研究者の研究の中心的な貢献の 1 つは、そのような統一された視覚データセット (UVDv1) を構築することです。 この目的のために、研究者は(1)ラベルのない画像、(2)視覚的な注釈が付いた画像、(3)ラベルのないビデオ、(4)視覚的な注釈が付いたビデオ、および(5)3D合成オブジェクトなど、さまざまな視覚データソースを活用してきました。 その中で、ラベルなし画像は全データの80%以上を占め、視覚世界の大部分を構成し、必要な多様性を提供しています。しかし、データソースの品質が低いという欠点があります。 注釈付きの画像は配布が制限されますが、一般的に品質が高くなります。 一方、ビデオ データは制約が厳しい (一般的には人間中心のアクティビティ) ですが、時間データの貴重なソースとなります。 3D 合成オブジェクトはレンダリングの多様性が最も低いですが、3D 構造の動作に関する貴重なヒントを提供できます。 そして最も重要なのは、UVDv1 は純粋に視覚的なデータセットであり、テキストなどの非視覚的なメタデータが含まれていないことです。 UVDv1 には合計 16 億 4,000 万枚の画像が含まれています。 LLM とのもう 1 つの重要な違いは、言語データはすべてのデータに対して自然で均一な 1 次元構造 (テキスト ストリーム) を持っていることです。 残念ながら、視覚データの場合はそうではありません。視覚データでは、ソースごとに構造が異なります。 そのため、本研究では、研究者らは視覚データの統一された単位として視覚シーケンスを提案し、これによりさまざまなコレクションソースからスケーラブルなモデルをトレーニングできるようになります。 ビジュアル シーケンスは、1 つ以上の画像のシーケンスと、それに続く文末 (EOS) トークンです。 図 1 は、さまざまなデータ ソースが視覚的なシーケンスに分割される様子を示しています。 単一画像単一の画像自体は、視覚的なシーケンスの最も単純な形式を表します: {image, EOS}。 研究者らは、LAION 5Bデータセットの14億9000万枚の画像からフィルタリングされたサブセットを使用しました。 これはデータの圧倒的な最大部分であり、88.5% を占めています。 画像シーケンス画像シーケンスは、視覚シーケンスの自然な形式です。 研究者たちは、さまざまな既存のデータセットからビデオデータを取得して、このようなシーケンスを作成しました。 16 フレームのビジュアル シーケンスは、3 つの異なるステップ長 (10、20、30) でビデオを機械サンプリングすることによって形成されます。 さらに、研究者らは、0bjaverse データセットからの合成 3D オブジェクトを利用して、オブジェクト中心のマルチビュー シーケンスを生成しました。 研究者らは、各オブジェクトについて、オブジェクトの中心とカメラの間の半径 1.5 ~ 2.2 と、-45 ~ 45 度の一定の仰角をサンプリングし、オブジェクトのさまざまな視点を繰り返し処理しました (方位角を 15 度刻みで変更し、24 のビューをレンダリングしました)。 研究者たちはこの方法を使用して、トレーニング用に合計 42,000 個のシーケンスとテスト用に 8,000 個のシーケンスをレンダリングしました。 最後に、同じ意味カテゴリに属する画像をシーケンス(の一部)として特徴付けることも可能です。 ImageNet のカテゴリを使用して、同じカテゴリの画像グループ (2、4、8、または 16) が 16 枚の画像の長いシーケンスに連結されます。 注釈付き画像さまざまな種類の画像注釈を統一的に処理するために、研究者はすべての注釈を画像として表現することを選択しました。 セマンティックセグメンテーションマップ、エッジマップ、深度、プレーンイメージなどの特定のデータタイプは、すでにこのように特徴付けられています。 他のデータ タイプについては、研究者は特定の注釈タイプごとに異なる方法を調整しました。 1. オブジェクト検出: 各オブジェクトの周囲に色分けされた境界ボックスを重ねて注釈を作成します。 2. 人間のポーズ: MMPose を使用し、OpenPose 形式に従って、ピクセル空間で人間の骨格をレンダリングします。 3. 深度推定、表面法線、エッジ検出: 指定された ImageNet および COCO 画像に対して、特定のプロトコルに従って注釈を生成します。 4. スタイル転送、雨の除去、ノイズ除去、低照度強調、ステレオ データセット: これらはすべて、画像ペア (入力/出力など) の形式で表されます。 5. カラー化: ImageNet 画像をグレースケール画像に変換し、画像ペアを生成します。 6. インペインティング: 画像にランダムに黒いボックスを追加して損傷をシミュレートし、画像ペアを生成します。 上記のすべての注釈タイプについて、同じ注釈タイプの 8 つの画像ペアを連結して 16 個の画像の視覚的シーケンスを作成することにより、視覚的シーケンスを作成できます。 同じ画像の k つの異なる注釈を含むデータセットの場合、異なるアプローチが使用されます。1 + k の画像セット (k を超える注釈を含む入力) ごとに、m 個の要素をランダムに選択します (m≤n+1≤16)。これらの m タプルは連結されて視覚的なシーケンスを形成します。 注釈付き画像シーケンス注釈付きビデオ データ (VIPSeg、Hand14K、AVA、JHMDB) をビジュアル シーケンスに変換する際には、2 つの補完的な戦略が採用されています。 最初の戦略は、ペアになった注釈付き画像データを処理するアプローチに似ています。各ビジュアル シーケンスは、フレームとその注釈を連結することによって構築されます ({frame1、annot1、frame2、annot2、...})。 2 番目の方法は、対応する注釈 {frame1、frame2、annot1、annot2、...} を使用して複数のフレームをグループ化することです。 実装自然に個別のシーケンス構造を示すテキスト データとは異なり、画像ピクセルを視覚的なシーケンスとしてモデル化することは直感的ではありません。この研究では、研究者らは2段階のアプローチを採用しました。 1. 大規模なビジュアル トークナイザー (単一の画像で動作) をトレーニングして、各画像をビジュアル トークンのシーケンスに変換します。 2. 各シーケンスがトークンのシーケンスとして表される視覚シーケンスに対して自己回帰 Transformer モデルをトレーニングします。 画像のトークン化視覚的なシーケンスは連続する画像間で連続的な構造を示しますが、単一の画像内にはそのような自然な連続的な構造は存在しません。 そのため、Transformer モデルを画像に適用するために、従来の研究では通常、画像をスキャンライン順にパッチに分割してシーケンスとして扱うか、VQVAE や VQGAN などの事前トレーニング済みの画像トークナイザーを使用して画像の特徴を 1 つずつ個別のトークンにクラスタ化し、これらのトークンをスキャンライン順にシーケンスに変換するという方法が採用されています。 研究者らが後者のアプローチを採用したのは、モデルの離散的な分類出力が自然に確率分布を形成し、簡単にサンプリングできるため、視覚シーケンスで新しい画像を柔軟に生成できるためである。 具体的には、研究者は VQGAN モデルによって生成されたセマンティック トークンを使用しました。このフレームワークには、構築されたコードブックからの離散トークンのシーケンスに入力画像を割り当てる量子化レイヤーを備えたエンコードおよびデコード メカニズムが含まれています。 エンコーダーとデコーダーは完全に畳み込み層で構成されています。エンコーダーには、入力の空間次元を圧縮するための複数のダウンサンプリング モジュールが装備されており、デコーダーには、画像を元のサイズに戻すための同数のアップサンプリング モジュールが装備されています。 研究者の VQGAN トークナイザーは、特定の画像に対して 256 個の個別のトークンを生成します。 トークナイザーは、視覚シーケンス全体を一度に処理するのではなく、個々の画像を個別に処理することに注意することが重要です。 この独立性により、研究者はトークナイザーのトレーニングを下流のトランスフォーマー モデルから切り離すことができ、視覚シーケンスの分布を考慮せずに単一画像データセットでトークナイザーをトレーニングできるようになります。 実装の詳細: 研究者は既製の VQGAN アーキテクチャを使用しました。ダウンサンプリング係数 f=16 とコードブック サイズ 8192 が使用されました。つまり、サイズが 256×256 の画像の場合、研究者の VQGAN のトークナイザーは 16×16 = 256 個のトークンを生成し、各トークンは 8192 個の異なる値を取ることができます。 研究者らは、ImageNet を使用して事前トレーニングされたトークナイザーは、ImageNet 画像を超えて十分に一般化できないことを発見しました。そのため、研究者たちは、LAION 5B データセットの 15 億のサブセットで独自のトークナイザーをトレーニングしました。 ビジョンシーケンスのシーケンスモデリング研究者らは、VQGAN を使用して画像を個別のトークンに変換した後、複数の画像の個別のトークンを 1D シーケンスに連結することにより、視覚シーケンスを統一されたシーケンスとして扱いました。 重要なのは、研究者がすべての視覚シーケンスを平等に扱ったことです。研究者は、特定のタスクや形式を示すために特別なトークンを使用しませんでした。 研究者らは、言語モデルの標準的なアプローチと同様に、次のトークンを予測することを目的としたクロスエントロピー損失を使用して因果Transformerモデルをトレーニングしました。すべての視覚シーケンスを処理するために同じ方法でモデルをトレーニングすると、モデルはタスクまたは形式固有のトークンからではなく、コンテキストから画像間の関係を推測できるようになります。これにより、モデルは他の目に見えない視覚シーケンス構造に一般化できるようになります。 実装の詳細: 研究者は、視覚シーケンス内の各画像を 256 個のトークンにトークン化し、それらを 1D トークン シーケンスに連結します。 視覚トークンシーケンスに基づく研究者のTransformerモデルは自己回帰言語モデルとほぼ同じであるため、研究者はLLaMAのTransformerアーキテクチャを採用しました。 研究者らは、VQGAN トークナイザーで 16 枚の画像を収容できる 4096 トークンのコンテキスト長を使用しました。 言語モデルと同様に、研究者らは各視覚シーケンスの先頭に[BOS](シーケンスの先頭)トークンを追加し、末尾に[EOS](シーケンスの終了)トークンを追加し、トレーニング中にシーケンスの連結を使用して効率を向上させました。 私たちは、1 つのエポックを使用して、UVDv1 データセット全体 (4,200 億トークン) でモデルをトレーニングしました (潜在的な過剰適合を回避するために、言語モデルで単純なエポック トレーニングを使用)。 研究者らは、同じトレーニング構成に従って、3億、6億、10億、30億という異なる数のパラメータを持つ4つのモデルをトレーニングしました。 視覚的な手がかりによる推論私たちのモデルの自己回帰トランスフォーマーは、前のトークンを与えられた場合に次のトークンの確率分布を出力するため、この分布から簡単にサンプリングして、視覚シーケンスを完了する新しい視覚トークンを生成できます。 モデルを下流のタスクに使用するには、テスト時にタスクを定義する部分的な視覚シーケンスを作成し、モデルを適用して出力を生成します。これは、言語モデルにおける文脈学習やコンピュータービジョンにおける視覚的手がかりに似ています。 実験結果と分析最後に、研究者らはモデルの拡張能力と、さまざまなプロンプトタスクを理解して回答する能力を評価しました。 スケーラビリティ研究者たちは、モデルのサイズが大きくなり、トレーニング中に見られるトークンの数が増加するにつれて、トレーニング損失と下流のタスクのパフォーマンスの観点から、モデルのスケーリング動作を研究しました。 トレーニング損失。まず、研究者らは、異なるパラメータ サイズでの LVM のトレーニング損失を調べました (下の図を参照)。 研究者のモデルはすべてデータセットで 1 エポックのみトレーニングされたため、モデルは各データ サンプルを 1 回だけ確認し、トレーニング中のどの時点でもトレーニング損失は検証損失と非常に似ていました。 トレーニングが進むにつれて、次のことがわかります。 1. さまざまなサイズのモデルのトレーニング損失(困惑度)は減少し続けます。 2. モデルのサイズ(パラメータ数)が大きくなるにつれて、損失はより速く減少します。これらの観察結果は、LVM がより大きなモデルとより多くのデータで強力なスケーラビリティを発揮することを示しています。 LVM はトレーニング中の全体的な損失に合わせて適切にスケーリングされますが、全体的なモデルが改善されると、特定の下流タスクでもパフォーマンスが向上するという保証はありません。 そのため、研究者らは、セマンティックセグメンテーション、深度推定、表面法線推定、エッジ検出という 4 つの下流タスクでさまざまなサイズのモデルを評価しました。研究者らは、ImageNet 検証セットでこれらのタスクを評価しました。 研究者らは、各タスクについて、入力プロンプトとして入力とそれに対応する真の注釈およびクエリ画像のペアを 5 つ与え、次の 256 個のトークン (画像) の真の注釈に対する研究者モデルの困惑度予測を評価しました。 下の図では、研究者らは、より大きなモデルが実際にすべてのタスクでより低い困惑度を達成していることを示しており、そのスケーラブルな全体的なパフォーマンスがさまざまな下流タスクに反映されることを示しています。 LVM は、より大きなモデルやより多くのデータでより優れたパフォーマンスを実現しますが、UVDv1 で収集された各データ コンポーネントが役立つかどうかは当然の疑問です。 この疑問に答えるために、研究者らは、研究者のデータセットのサブセットでトレーニングされたいくつかの 3B モデルに対してアブレーション研究を実施し、下流のタスクにおけるパフォーマンスを比較しました。 研究者たちは以前と同じ 4 つのダウンストリーム タスクと設定を使用し、その結果を次の図に示しています。 研究者たちは、各データコンポーネントが下流のタスクにプラスの影響を与えることを観察しました。 LVM は、より大きなデータから恩恵を受けるだけでなく、注釈付きおよび教師なしの画像とビデオ データの両方を含むデータセットの多様性が増すにつれて改善されます。 シーケンスのヒント研究者たちはまず、LVM を視覚的に刺激するための最も直感的でシンプルなアプローチ、つまり順次推論を採用しました。ここで、プロンプトの構築は非常に簡単です。研究者はモデルに 7 枚の画像のシーケンスを示し、次の画像 (256 トークン) を予測するように依頼します。 連続キューの場合、最も簡単なタスクはビデオ予測です。下の図は、Kinetics-700 検証セット シーケンスから促された次のフレームの予測のいくつかの例を示しています。 上の例では、7 フレームのヒント (青い枠線) の後に予測フレーム (赤い枠線) が続きます。研究者たちは、空間の方向、視点、物体の理解において、ある程度の推論能力を観察しました。 Kinetics 検証セットで予測される困惑度は 49.8 です。 以下の例は、より長いコンテキスト (15 フレーム) とより長い予測 (4 フレーム) による予測を示しています。 同じタイプの単純な連続プロンプトは、他の方法でも使用できます。たとえば、下の図は、任意の軸を中心に合成オブジェクトの一連の 3D 回転をモデルに指示することで、モデルがさらに回転を予測できる様子を示しています。 あるいは、研究者は、下の図に示すように、特定のカテゴリ内の項目のリストをシーケンスとして扱い、そのカテゴリ内の他のアイデアを予測することもできます。 注目すべきは、システムは同じ ImageNet カテゴリの画像セットでトレーニングされたが、ここでのプロンプトには、注釈付きデータのいずれにも登場していないスケッチが含まれていることです。 次に、研究者らは、後続のフレームを正確に予測するためにどの程度の時間的コンテキストが必要かを調査しました。 研究者らは、さまざまな長さ(1~15フレーム)の文脈的手がかりに対するモデルのフレーム生成の困惑度を評価しました。下の図に示すように、Kinetics-700 検証セットでは、パープレキシティは 1 フレームから 11 フレームまで大幅に改善し、その後安定します (62.1 → 48.4)。 類推のヒント研究者らの研究は、研究者らが「類推プロンプト」と呼ぶ、より複雑なプロンプト構造を評価することで進展した。このアプローチでは、モデルに任意の長さと複雑さの類推を理解するように要求し、それによってその高レベルの解釈能力をテストします。 下の図は、いくつかのタスクで類推の手がかりを使用した定性的な結果のサンプルを示しています。プロンプトは、さまざまなタスクの例を示す 14 枚の画像のシーケンスと、それに続く 15 番目のクエリ画像で構成されます。各プロンプトに対して、次の画像を予測します。 図の上部には、トレーニング セット内のタスクを定義するいくつかのサンプル プロンプトが表示されています (ただし、これらの実際の画像はトレーニングでは表示されていません)。図の下部は、トレーニング中に一度も示されなかったタスクへの一般化を示しています。 研究者らは、しきい値 0.1 の標準の正しいキーポイントの割合 (PCK) メトリックを使用して、Pascal 3D+ でのキーポイント検出の結果を示しています。注目すべきことに、LVM はこのデータセットでトレーニングしなくても PCK 81.2 を達成しており、優れた一般化能力を示しています。 比較として、研究者らは既存のタスク固有のモデルをいくつか実証しました。StackedHourglass は PCK 68.0、MSS-Net は PCK 68.9、StarMap は PCK 78.6 を達成しました。 視覚的な手がかりとの比較 研究者のアプローチに最も近いアプローチであり、任意のタスクの定義も可能にするアプローチは、視覚的な手がかりです。以下の表では、研究者らが、少数ショットのセグメンテーション、オブジェクト検出、およびカラー化タスクにおけるいくつかの視覚的手がかりモデルのパフォーマンスを比較しています。研究者のシーケンシャル LVM は、ほぼすべてのタスクにおいて従来の方法よりも優れたパフォーマンスを発揮します。 タスクの組み合わせ 次の図は、複数のタスクを 1 つのプロンプトに結合する方法を示しています。研究者らは、回転タスクに新しいキーポイント対応タスクを提示し、モデルにこのパターンを継続するように依頼しました。モデルはテスト時に 2 つのタスクを正常に組み合わせることができ、ある程度の構成性を示しています。 その他の種類のプロンプト研究者たちは、これまで見たことのないさまざまなプロンプトを与えることで、モデルをさらに進化させることができるかどうかを確認しようとした。 下の画像は、非常にうまく機能するこれらのプロンプトの一部を示しています。 次の図は、言葉で説明するのが難しいヒントを示しています。これは、LVM が最終的に LLM よりも優れている可能性があるタイプのタスクです。 |
>>: Microsoft は「プロンプト エンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90%を超える
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
汎用人工知能 (AGI) に向けた多くの方向性の中で、マルチモーダル大規模モデル (MLLM) の開...
[[248236]]皆さんは、イ・セドルと柯潔を破った Google の「Alpha Go」をまだ覚...
PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...
近年、人工知能技術の研究が継続的に進歩するにつれて、資本は熱い傾向を示し、さまざまな業界が人工知能に...
機械学習の基盤となるデータは、GB、TB、PB と数え切れないほど増加してきました。現在、より大規模...
Java 開発では、非効率的なコードや不合理なアルゴリズムにより、プログラムのパフォーマンスが低下す...
[[264142]] 「中国で人工知能の基本アルゴリズムの研究に携わっている数学者は何人いるのか?...
先月、イーロン・マスク氏は公開書簡でAIシステムの開発を6か月間停止するよう求め、「人間と競合する知...
インターネットの出現と普及は、大量の情報をユーザーにもたらし、情報化時代の情報需要を満たしました。し...
近年、AI による絵画のレベルは飛躍的に向上しています。 Midjourney と Adobe ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
5月15日、マイクロソフトの人工知能およびIoT研究所が上海張江で正式に業務を開始し、第一陣として国...