この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 無関係な画像検索結果を心配する必要はもうありません。OpenAIの最新技術CLIPによるこの正確な画像検索を試してみてください。 たった 1 つの「平易な言葉」による説明で、必要なイメージを伝えることができます。 たとえば、次のように入力します。 壁に書かれた愛という言葉 次の結果が得られます。 かなり正確だと言えます!これは今日 Reddit で話題になっているプロジェクトです。 このプロジェクトでは、OpenAIが最近よくニュースで取り上げている、再ランキングを担当するモデルであるDALL·EのコアモジュールであるCLIPを使用しています。 このプロジェクトは Google Colab Notebook を使用しており、オンラインで無料で、200 万枚の画像のデータセットが含まれており、最も重要な点として、非常に正確です。 これにネットユーザーからは「すごい」という声が上がった。 わずか数ステップで、「方言」を使ってオンラインで画像を正確に検索できます。このプロジェクトが非常に人気がある重要な理由の 1 つは、操作が簡単なことです。 まず最初に、Colab Notebook でプロジェクトのアドレス (記事の最後にあるリンクを参照) をクリックし、アカウントにログインします。 環境設定、パッケージやライブラリの呼び出しに関しては、このプロジェクトではすでに非常に配慮されています。セルの左側にある小さな三角形を順番にクリックして、操作が完了するのを待つだけです。 最後に、次のコードを含むセルに到達します。 search_query = “雪の中で遊ぶ2匹の犬” このセルをクリックして実行すると、検索画像の結果を取得できます。例: もちろん、このプログラムは人をとてもよく理解しているようです。「コードがスムーズに実行されたときの感情」を入力すると、次のようになります。 プログラムがようやく動作したときの気持ち 得られた結果は、普通の人が想像するものと一致するはずです。 CLIP 画像検索がなぜこれほど正確なのでしょうか?OpenAIが最近立ち上げたDALL·Eは、主にテキストの説明に従って対応する画像を生成することができます。 私たちに提示された最終的な作品は、実際には生成された多数の写真の一部です。 プロセスの途中で、コーチ選択のためのランキングと採点のプロセスが実際に行われます。 タスクのこの部分はCLIPによって完了します。
この構造は、生成された敵対的テキストを使用して画像を合成するGAN に少し似ています。 ただし、GAN を使用して画像の解像度を拡大し、画像とテキストの特徴を一致させるなどの方法と比較して、CLIP は出力を直接ランク付けすることを選択します。 研究者によると、CLIP ネットワークの最大の重要性は、視覚タスクにおけるディープラーニングの 2 つの最大の問題を軽減することだ。 まず、ディープラーニングに必要なデータ注釈の量が削減されます。 ImageNet 上の 1,400 万枚の画像を手動でテキストで記述するのに比べて、CLIP はインターネット上の既存の「テキスト記述画像」データから直接学習します。 さらに、CLIP は「マルチタスク」が可能で、さまざまなデータセット (これまでに見たことのないデータセットを含む) で優れたパフォーマンスを発揮します。 しかし、これまでの視覚ニューラル ネットワークのほとんどは、トレーニング データ セットでのみ良好なパフォーマンスを発揮できました。 たとえば、ResNet101と比較すると、CLIPはさまざまなデータセットで優れた検出精度を発揮しますが、ResNet101はImageNetを除いて検出精度があまり良くありません。 具体的には、CLIP はゼロショット学習、自然言語理解、マルチモーダル学習などの技術を使用して画像理解を完了します。 たとえば、シマウマを表現するには、「馬の輪郭 + トラの毛皮 + パンダの白黒」を使うことができます。このようにして、ネットワークはこれまで見たことのないデータから「シマウマ」の画像を見つけることができます。 最後に、CLIP はテキストと画像の理解を組み合わせて、データセット内のどの画像がどのテキストと最もよく組み合わせられるかを予測します。 ネットユーザー:ロボット(ボット)はあまり幸せではないかもしれないCLIP が平易な言葉で画像をいかにうまく検索できるかに驚嘆しながら、Reddit ユーザーはさらに興味深い検索結果も発見しました。 テキスト説明のコード セクションに次のように入力します。 今のあなたの気持ちを最もよく表す画像は何ですか? 私たち人間の目には、この文章は AI に疑問を投げかける口調であるはずで、その結果は次のようになります。 こんなのもあります: さて、AI赤ちゃんは「遊びすぎ」でちょっと不機嫌になってしまったようです。 参考リンク: プロジェクトアドレス: |
<<: マイア:人間を模倣するが、人間を超えることはないチェスAI
>>: 現在、人工知能技術はどのような分野に応用されていますか?
人工知能、モノのインターネット、産業インターネットなどがもたらすインテリジェント化の波は、技術発展の...
現在、機械学習アルゴリズムは、自動運転車業界で増加している問題を解決するために大規模に使用されていま...
1987 年のノーベル経済学賞受賞者であるボブ・ソローは、「生産性統計を除けば、コンピュータ時代は...
人工知能は、人間の活動と市場投資の2つの主要分野である健康と言語に拡大しています。 「State o...
新知源は、バイトダンスの副社長兼AIラボ責任者である馬衛英氏がバイトダンスを離れ、清華大学の張亜琴氏...
Rsync は、Unix/Linux でファイルを同期するための効率的なアルゴリズムです。2 台のコ...
植物保護ドローンは、現在の農業分野において間違いなく新たな人気機器です。高効率、利便性、精度、環境保...
AI モデルのトレーニングには、大規模で機密性の高いデータセットが使用されることが多く、プライバシ...
近年、ウィッグ業界は海外進出のホットな分野として、国際市場で急速に台頭してきました。 Statist...
[[330426]]ビッグデータダイジェスト制作出典: towarddatascience著者: ...
2009年に設立されたPercentage Pointは、間違いなく中国のビッグデータ産業の発展の...
最近、「重慶の人気列車がドローンに衝突され停止」する動画がインターネット上で広く出回っている。 [[...
新型コロナウイルスの世界的大流行が続く中、従業員にリモートワークを奨励する企業が増えています。従来の...
[51CTO.com からのオリジナル記事] 今週の土曜日、Ascend Academy Tech...