AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

2か月前にインターネット上で話題を呼んだAI設計の巨匠CLIPの脳が、OpenAIによって「公開」された。

意外にも、この強力な AI は人間の思考方法と非常によく似ています。

[[385516]]

たとえば、「フライドチキン」という言葉を聞いたり、実際にフライドチキンを見たりすれば、よだれが出るかもしれません。なぜなら、あなたの脳にはフライドチキンに反応する役割を特に担う「フライドチキンニューロン」のグループがあるからです。

このCLIPも同様です。

「スパイダーマン」という言葉を聞いたり、スパイダーマンの写真を見たりするだけで、CLIPの特定の領域が反応し始め、もともと赤や青に反応する領域までもが「興奮」するようになります。

OpenAI は、CLIP に実際に「スパイダーマンニューロン」があることを発見しました。

これは脳科学においては何も新しいことではありません。なぜなら、15年も前に、人間の脳を研究している科学者たちは、顔がニューロンのグループに対応していることを発見したからです。

しかし、これは AI にとって大きな前進です。以前は、テキストを画像に変換したり、画像をテキストに変換したりするために 2 つのシステムが使用されていましたが、それらは異なる方法で動作していました。

しかし、CLIP は人間の脳と非常によく似た動作方法を持っています。CV と NLP は技術的につながっていることだけでなく、脳内の思考も同じで、専用の処理領域があります。

二人の類似性を見て、一部のネットユーザーは次のようにコメントした。

これは恐ろしいことです。つまり、汎用人工知能 (AGI) が誰も想像できないほど急速に到来しているということです。

さらに、OpenAI は、CLIP の画像に対する反応が、感情に反応するニューロンを含むてんかん患者の脳内のニューロンと似ていることに驚きました。将来的にはAIが神経疾患の治療に役立つかもしれません。

AIの「脳」は実は人間と同じ

これまで何が起こったのか、そしてCLIPとは何なのかを振り返ってみましょう。

少し前に、OpenAI は GPT-3 から派生し、テキストの説明に従って正確に画像を生成できるDALL·E をリリースしました。

DALL·E の自然言語と画像の理解と統合は前例のないものです。発売されるとすぐに、Andrew Ng 氏や Keras の父などの著名人から賞賛を集めました。

DALL·Eの核となる部分はCLIPです。

簡単に言えば、CLIP は DALL·E によって生成されたすべての結果をチェックし、適切なものを選択して表示する再ランキングモデルです。

CLIP の「判断」能力は、テキストと画像の意味を「融合」して理解する能力と切り離せないものですが、この能力がどこから来るのかは誰も知りませんでした。

OpenAIはその後、CLIPニューラルネットワークの原理構造を深く掘り下げ、そのマルチモーダルニューロンが人間の脳と同様の動作メカニズムを持っていることを発見しました。つまり、ニューロンはテキストと画像の同じ意味に同時に反応できるのです。

いわゆるモダリティとは、複数の異なる特徴を含むプロセスまたは何かを指します。画像は通常、ラベルやテキストの説明と関連付けられており、物事を完全に理解するための要素です。

たとえば、 「Spider-Man」または「Spiderman」という 3 つの単語を見ると、赤と青のタイツを着たスーパーヒーローを思い浮かべることができます。

このコンセプトに慣れると、次のような白黒の手描きの絵を見ても、これがスパイダーマンだとすぐにわかります。

CLIP のマルチモーダルニューロンは、人間のものと変わらない能力を持っています。

OpenAI は、18 個の動物ニューロンと 19 個の有名人ニューロンを含む、特定の事柄に特に関与するニューロンをいくつか発見しました。

感情を理解するために特別に設計されたニューロンさえあります。

実際、人間自体がマルチモーダル学習の総体です。私たちは物体を見ることができ、音を聞き、質感を感じ、匂いを嗅ぎ、味を味わうことができます。

AIがこれまでの「人工知能」型の機械的な作業方法から脱却するためには、人間のようにマルチモーダルな信号を同時に理解できるようにするのが一つの道です。

そのため、マルチモーダル学習こそが人工知能の発展の真の方向であると考える研究者もいます。

実装では、通常、異なる要素の認識サブネットワークの出力は重み付けされて結合され、各入力モダリティが出力予測に学習された貢献を行えるようになります。

タスクに応じて、サブネットと予測出力に異なる重みを付加して、ニューラルネットワークのさまざまなパフォーマンスを実現できます。

CLIP について具体的に言うと、言語モデルから生まれたものであり、画像よりもテキストに敏感であることが研究者のテスト結果から明確にわかります。

AIを攻撃するのも簡単だ

しかし、AIの「心」におけるテキストと画像の連携は諸刃の剣です。

プードルの体にドル記号をいくつか追加すると、CLIP はそれを貯金箱として認識します。

OpenAI はこの種の攻撃を「タイポグラフィ攻撃」と呼んでいます。

つまり、複雑な技術を必要とせずに、画像にテキストを挿入して AI を攻撃できるということです。

紙とペンさえあれば、AI を解読するのはかつてないほど簡単になりました。

こうしてリンゴは「Apple」iPodへと変身したのです。

ネットユーザーの中には、Apple を図書館に改造した人もいました。

中国のネットユーザーはもっとよく知っているはずだ。お守りを使ってゾンビを封印するように、AIも封印できるようだ。

CLIP には、敵対的攻撃を防ぐための作業がまだたくさん残っています。

AIブラックボックスはそれほど黒くない

それでも、「マルチモーダルニューロン」は、AI の説明可能性における重要なブレークスルーです。

使いやすさと説明可能性は、ケーキを食べてケーキも残しておくようなものです。

現在使用している最も精度の高い画像認識モデルは解釈性が低いです。しかし、説明可能な AI によって作成されたモデルを実際に適用するのは困難です。

AIは単に実用的なものになるだけではありません。 AI医療や自動運転車の背後にある理由を理解しなければ、倫理性が問われることになる。

OpenAIによれば、脳とCLIPのような合成視覚システムは、情報を整理する方法が非常に似ているようだという。 CLIP は、AI システムが私たちが考えていたほど暗くないということを事実で証明しています。

CLIP はデザインマスターであるだけでなく、将来的に AI のエラーやバイアスを軽減できる可能性のあるオープンブレイン AI でもあります。

<<: 20倍速くなります！ Google AIがスマートカーに役立つTensorFlow 3Dを発表

>>: 自動運転車が急カーブを曲がるときに車線を検知する3つの技術

Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

AIの「脳」は実は人間と同じ

AIを攻撃するのも簡単だ

AIブラックボックスはそれほど黒くない

Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

ByteDanceは、ロボットの成功率と操作効果を高めたVi-PRoMビジュアル事前トレーニングソリューションを提案した。

企業は2024年に台頭するテクノロジーの波にどのように対応すべきでしょうか?

Transformerのトレーニング問題を解決するために、Microsoft Researchは1000層のTransformerを開発しました。

スーパー暗号解読：自動運転はこうして実現される

追加のトレーニングなしでモデルのパフォーマンスを 30% 向上します。ディープマインドの科学者がMIT博士課程学生のインターンシップの成果を称賛

ファーウェイのエリック・シュー氏：パーベイシブ・インテリジェンスを創造し、すべてがつながるインテリジェントな世界を構築する

2020 年の機械学習向け Python ライブラリトップ 6!

カメラの前で指をタップすることでパーキンソン病の症状を遠隔で評価するAIツールが開発される

Node.jsを使用してテキストコンテンツをセグメント化し、キーワードを抽出する

推薦する

言語モデルは時間をどのように認識するのでしょうか?時間ベクトルについてさらに詳しく

ロボットを活用する3つの革新的な方法

安定拡散法を使って超リアルな人間の顔を生成する3つの方法

顔認識はどこにでもあるが、デジタル悪用のリスクに注意

Uberの自動運転車の死亡事故から忘れてはならない10の教訓

人工知能（AI）について知っておくべきことすべて

統計ソフトウェアStataを回帰分析に使用する方法

人工知能は「新たな生産要素」である