この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 2か月前にインターネット上で話題を呼んだAI設計の巨匠CLIPの脳が、OpenAIによって「公開」された。 意外にも、この強力な AI は人間の思考方法と非常によく似ています。
たとえば、「フライドチキン」という言葉を聞いたり、実際にフライドチキンを見たりすれば、よだれが出るかもしれません。なぜなら、あなたの脳にはフライドチキンに反応する役割を特に担う「フライドチキンニューロン」のグループがあるからです。 このCLIPも同様です。 「スパイダーマン」という言葉を聞いたり、スパイダーマンの写真を見たりするだけで、CLIPの特定の領域が反応し始め、もともと赤や青に反応する領域までもが「興奮」するようになります。 OpenAI は、CLIP に実際に「スパイダーマン ニューロン」があることを発見しました。 これは脳科学においては何も新しいことではありません。なぜなら、15年も前に、人間の脳を研究している科学者たちは、顔がニューロンのグループに対応していることを発見したからです。 しかし、これは AI にとって大きな前進です。以前は、テキストを画像に変換したり、画像をテキストに変換したりするために 2 つのシステムが使用されていましたが、それらは異なる方法で動作していました。 しかし、CLIP は人間の脳と非常によく似た動作方法を持っています。CV と NLP は技術的につながっていることだけでなく、脳内の思考も同じで、専用の処理領域があります。 二人の類似性を見て、一部のネットユーザーは次のようにコメントした。
さらに、OpenAI は、CLIP の画像に対する反応が、感情に反応するニューロンを含むてんかん患者の脳内のニューロンと似ていることに驚きました。将来的にはAIが神経疾患の治療に役立つかもしれません。 AIの「脳」は実は人間と同じこれまで何が起こったのか、そしてCLIPとは何なのかを振り返ってみましょう。 少し前に、OpenAI は GPT-3 から派生し、テキストの説明に従って正確に画像を生成できるDALL·E をリリースしました。 DALL·E の自然言語と画像の理解と統合は前例のないものです。発売されるとすぐに、Andrew Ng 氏や Keras の父などの著名人から賞賛を集めました。 DALL·Eの核となる部分はCLIPです。 簡単に言えば、CLIP は DALL·E によって生成されたすべての結果をチェックし、適切なものを選択して表示する再ランキング モデルです。 CLIP の「判断」能力は、テキストと画像の意味を「融合」して理解する能力と切り離せないものですが、この能力がどこから来るのかは誰も知りませんでした。 OpenAIはその後、CLIPニューラルネットワークの原理構造を深く掘り下げ、そのマルチモーダルニューロンが人間の脳と同様の動作メカニズムを持っていることを発見しました。つまり、ニューロンはテキストと画像の同じ意味に同時に反応できるのです。 いわゆるモダリティとは、複数の異なる特徴を含むプロセスまたは何かを指します。画像は通常、ラベルやテキストの説明と関連付けられており、物事を完全に理解するための要素です。 たとえば、 「Spider-Man」または「Spiderman」という 3 つの単語を見ると、赤と青のタイツを着たスーパーヒーローを思い浮かべることができます。 このコンセプトに慣れると、次のような白黒の手描きの絵を見ても、これがスパイダーマンだとすぐにわかります。 CLIP のマルチモーダルニューロンは、人間のものと変わらない能力を持っています。 OpenAI は、18 個の動物ニューロンと 19 個の有名人ニューロンを含む、特定の事柄に特に関与するニューロンをいくつか発見しました。 感情を理解するために特別に設計されたニューロンさえあります。 実際、人間自体がマルチモーダル学習の総体です。私たちは物体を見ることができ、音を聞き、質感を感じ、匂いを嗅ぎ、味を味わうことができます。 AIがこれまでの「人工知能」型の機械的な作業方法から脱却するためには、人間のようにマルチモーダルな信号を同時に理解できるようにするのが一つの道です。 そのため、マルチモーダル学習こそが人工知能の発展の真の方向であると考える研究者もいます。 実装では、通常、異なる要素の認識サブネットワークの出力は重み付けされて結合され、各入力モダリティが出力予測に学習された貢献を行えるようになります。 タスクに応じて、サブネットと予測出力に異なる重みを付加して、ニューラル ネットワークのさまざまなパフォーマンスを実現できます。 CLIP について具体的に言うと、言語モデルから生まれたものであり、画像よりもテキストに敏感であることが研究者のテスト結果から明確にわかります。 AIを攻撃するのも簡単だしかし、AIの「心」におけるテキストと画像の連携は諸刃の剣です。 プードルの体にドル記号をいくつか追加すると、CLIP はそれを貯金箱として認識します。 OpenAI はこの種の攻撃を「タイポグラフィ攻撃」と呼んでいます。 つまり、複雑な技術を必要とせずに、画像にテキストを挿入して AI を攻撃できるということです。 紙とペンさえあれば、AI を解読するのはかつてないほど簡単になりました。 こうしてリンゴは「Apple」iPodへと変身したのです。 ネットユーザーの中には、Apple を図書館に改造した人もいました。 中国のネットユーザーはもっとよく知っているはずだ。お守りを使ってゾンビを封印するように、AIも封印できるようだ。 CLIP には、敵対的攻撃を防ぐための作業がまだたくさん残っています。 AIブラックボックスはそれほど黒くないそれでも、「マルチモーダルニューロン」は、AI の説明可能性における重要なブレークスルーです。 使いやすさと説明可能性は、ケーキを食べてケーキも残しておくようなものです。 現在使用している最も精度の高い画像認識モデルは解釈性が低いです。しかし、説明可能な AI によって作成されたモデルを実際に適用するのは困難です。 AIは単に実用的なものになるだけではありません。 AI医療や自動運転車の背後にある理由を理解しなければ、倫理性が問われることになる。 OpenAIによれば、脳とCLIPのような合成視覚システムは、情報を整理する方法が非常に似ているようだという。 CLIP は、AI システムが私たちが考えていたほど暗くないということを事実で証明しています。 CLIP はデザインマスターであるだけでなく、将来的に AI のエラーやバイアスを軽減できる可能性のあるオープンブレイン AI でもあります。 |
<<: 20倍速くなります! Google AIがスマートカーに役立つTensorFlow 3Dを発表
>>: 自動運転車が急カーブを曲がるときに車線を検知する3つの技術
翻訳者 |ブガッティレビュー | Chonglou 1.基本モデルの定義ベースモデルは、大量のデータ...
[[427475]]導入ディープラーニングによる物体検出、特に顔検出では、解像度が低い、画像がぼやけ...
先月、イーロン・マスク氏は公開書簡でAIシステムの開発を6か月間停止するよう求め、「人間と競合する知...
2021年に入ってから、自動運転分野の開発は着実に進展しており、今年1月には自動運転関連のさまざまな...
人工知能がスマートフォンアプリとユーザーエクスペリエンスをどのように変えているのか。進化し続けるテク...
Facebookは、現在FionaとAlohaというコードネームがつけられている2つのスマートスピー...
[51CTO.comより引用] 人工知能時代の到来とともに、商業デザイン分野における芸術と技術の競争...
デジタル技術によって変革されない業界を見つけるのは難しいですが、適応型セクターも例外ではありません。...
人工知能は、将来の発展にとって大きな破壊的技術の 1 つであるとよく考えられています。これにより、多...
【51CTO.comオリジナル記事】 1. はじめに上記の記事を通じて、レコメンデーション アルゴリ...
[[342976]]機械学習は、強力な理論的側面と実践的側面を備えた技術分野です。機械学習関連の仕事...
6月25日、ジーナ・ライモンド米国商務長官は、国立標準技術研究所(NIST)が人工知能(AI)に関...
シリコンバレーのアイアンマンの熱心な宣伝により、脳コンピューターインターフェースがホットな言葉になっ...