AIの「心の目」が透けて見える!ニューラルネットワークに大きな変化、モデル生成の背後にあるロジックが初めて明らかに

AIの「心の目」が透けて見える!ニューラルネットワークに大きな変化、モデル生成の背後にあるロジックが初めて明らかに

エイリアンの小さな頭の中で何が起こっているのか、そしてエイリアンは世界をどのように認識しているのか疑問に思ったことはありませんか?

(この質問は非常に抽象的であることは承知しています)

海外のある男性も宇宙人の思考に非常に興味があり、AIの力を使って一連の画像を生成し、「宇宙人の思考モデル」を構築しようとした。

その男のアイデアは非常にシンプルで、エイリアンの心の中のイメージを捉えようとするものでした。

たとえば、従来の生成 AI の場合、「パーティー ハットをかぶった猫」と入力すると、次のような画像が生成される可能性が高くなります。

この画像は私たちが予想していた通りのものです。なぜなら、それを生成した AI は人間の思考に基づいてトレーニングされていたからです。

さて、この男の方法は、AI のニューラル ネットワークの内部構造などのコンポーネントの一部を変更し、ネットワークの各部分の重みをリセットするというものです。生成されたものはエイリアンが望むものに近づくことができるでしょうか?

例えば、いくつかの変更を加えると、下の図のように、どんどん抽象化されていくことがあります。

写真

最終的な画像は単純にランダムであると言えます ― 少なくとも私たちはそう認識しています。

これは実際に、エイリアンの思考が何であるかをさらに探求するためのプラットフォームを提供します。

この人は、これは一種の人工神経科学のようなものだと言ったが、研究されているのは実際の人間の脳ではなく、ニューラルネットワークの類似物だ。

AIで画像を生成する

AIが写真を生成できるのは、何らかのトレーニングを受けており、どのような写真が適切か、写真の内容をどのように判断するかを知っているからです。

つまり、AIは妥当な写真をランダムに生成し、生成された写真の内容をチェックして微調整し、人々が望む写真にゆっくりと変えていくというわけです。

実際のところ、何が合理的であるかに関しては従うべきルールがあります。

何が合理的であるかを定義する規則性がいくつかあります。たとえば、ピクセルはランダムではない、隣接するピクセルは通常高い相関関係にある、顔がある場合は多かれ少なかれ対称的である、画像の上部が青の場合は下部が緑である可能性が高い、などです。

重要な技術的ポイントは、ニューラル ネットワークを使用して画像の規則性を捉え、必要に応じて新しい画像を生成することです。

以下はランダムに生成された例です -

ランダムに見えますが、トレーニングに使用される数十億枚の写真のいくつかのルールに概ね従っています。

つまり、上の写真はランダムで抽象的に見えますが、その中には肖像画や風景画も含まれているのです。実質的な内容がなくても、構造は存在します。

では、パーティーハットをかぶった猫の写真をどうやって撮るのでしょうか?

最初の質問は、成功したかどうかをどうやって知るかということです。

とても簡単ですよね? 生成された画像を確認するだけです。しかし、常に正確であるとは限りませんが、ニューラル ネットワークをトレーニングしてこれを行うことも可能であることがわかりました。

写真

ニューラルネットワークはどのようにトレーニングされるのでしょうか?

基本的な考え方は、数十億枚の画像を取得し、それらにキャプションを付け、対応する画像を受け取ったときにそれらのキャプションを再現できるようにニューラル ネットワークのパラメーターを徐々に調整することです。

ニューラルネットワークは、これまで見たことのない画像に対しても、適切なタイトルを付けることが可能です。つまり、計算によって構築されたニューラルネットワークの行動は、私たち人間の行動とまったく同じなのです。

この機能を使用すると、生成する画像をガイドして、必要な効果を実現できます。

「純粋なランダム性」から始めて、次に「ランダム性を構築」して「合理的な」画像を作成してみてください。言い換えれば、望む画像を得るために段階的に努力するということです。

実際には、このアプローチはランダムなピクセル配列から始まり、目的の画像を繰り返し形成します。

人間の脳内で心的イメージがどのように形成されるのかはわかっていません。しかし、おそらくプロセスはそれほど変わらないでしょう。実際、もっともらしいイメージを想像しようとするとき、私たちはそれが自分の望むものと一致しているかどうかを常に確認しています。

最終的にはすべてがデジタル データとして表現され、それがコンピューティング パラダイム全体の基礎となります。

しかし、ニューラル ネットワークの有効性は、少し異なる考え方に基づいています。つまり、少なくとも多くのものは実数の配列によって特徴付けられると考えられるということです。

最終的には、ニューラル ネットワークから「猫」という単語を抽出し、画像にキャプションを追加できるようになるかもしれません。

しかし、ニューラル ネットワークの内部では、与えられた画像と最終的に生成されるテキストの説明にかなり抽象的な形で対応する数値の配列が処理されます。

一般的に、ニューラル ネットワークは、画像、テキスト、その他の対象に「特徴ベクトル」を関連付けるものとしてよく考えられています。

ただし、「cat」や「dog」などの単語は離散的であり、それらに関連付けられた特徴ベクトルには実数のセットのみが含まれます。

これは、猫と犬が特定の 2 つのポイントに対応する一方で、可能性の空間全体を考慮できることを意味します。

はい、猫以外にも、すぐに奇妙なことが起こる可能性があります。

標準的な猫を通して特定の 2D 平面で何が起こるかを見てみましょう。

標準的な猫はその中間に位置します。標準的な猫の姿勢から離れると、奇妙なことが起こり始めます。

簡単に言えば、遠ければ遠いほど猫に見えなくなります。

ここにあるすべてのものは非常に奇妙で、時には少し不安にさえなります。以下は、標準的な猫の周りの同じ平面(ランダムに選択)で見えるものの拡大バージョンです。

これらは何ですか?ある意味、言葉では表現できないのです。

これらは、人間の経験がまだ私たちを導いていない、そして人間の言語がこれらの絵を記述するためにまだ発達していない、概念間空間の岸辺にあるものです。

たとえば、単にその空間からランダムにサンプリングすることによって、概念間空間をさらに探索したらどうなるでしょうか?

上で見たように、人間がインターネットに投稿する写真のように、ある程度統計的に典型的な写真がいくつか取得され、AI もこれらの写真に基づいてトレーニングされます。

同様の例をいくつか挙げます。

では、人工知能はどのような画像を見て、概念間の空間のモデルを形成したのでしょうか?

インターネットから収集された画像は数十億枚あります。ウェブ上の他のものと同様、これは良い点も悪い点もあります。

以下はランダムなサンプルです:

説明可能な概​​念(パーティーハットをかぶった猫など)から始めるのではなく、概念間の空間のランダムな点から始めるとどうなるでしょうか。次のような状況が見られます。

概念空間のイメージ

概念間の空間にあるイメージの多くは、奇妙な親しみやすさと、どこか異質さを感じさせます。人物のように見える写真もよく見かけますが、何かがおかしいのです。

人間は顔に対して特に敏感なので、顔に何か異常があると認識しやすくなります。

また、顔のない胴体だけの写真は奇妙に見えることがあります。

人間は、これまでのところ、最も一般的な識別可能な要素です。しかし、時には他のものも見えることがあります:

風景タイプのシーンもいくつかあります。

写真の中にはかなりリアルに見えるものもありますが、より抽象的な要素から風景の印象を構築しているものもあります。

たまに街の風景に似た写真もあります:

屋内シーンも少なくなっています。

外観を撮影したような写真もいくつかあります。

線や点、その他の印象派的な要素で作られた画像をよく見かけます。

何かを表現しようとしているように見える画像もたくさんありますが、それが何なのか、実際に人間が認識できるものなのか、それとも本質的に異質なものなのかはまったく不明です。

また、私たちは「純粋なパターン」のように見える作品もよく見かけます。それらは、何かを意図しているのではなく、むしろ何らかの装飾的な質感のように見えます。

ただし、最も一般的なタイプの画像は、さまざまな単純な要素を繰り返して形成される均一なテクスチャですが、通常はさまざまな「ずれ」があります。

概念横断的な空間では、多種多様なイメージが見られます。

多くの画像には、ある種の芸術的品質、つまり、世の中のありふれた物事や、単純で本質的に数学的なパターンに対する、ある種の「精神的解釈」であるという感覚があります。

ある意味、ここでの「心」はニューラル ネットワークに反映された人間の姿であり、人間が Web などに投稿する多くの画像を体験することもできます。

しかし、それはある意味では、ニューラル ネットワークの計算構造によって形作られた、より異質な種類の思考でもあり、いくつかの点では、間違いなく、独自の特異な、計算上は削減不可能な特徴を備えています。

実際、いくつかの繰り返しパターンは、ニューラル ネットワークの根本的な構造的特徴を反映している可能性があります。

たとえば、明暗が交互に現れる「ざらざらした」外観は、ニューラル ネットワークの畳み込み部分の動的な変化の結果である可能性があり、これは、有効ピクセルの特定の範囲にわたって繰り返しぼかしとシャープ化を行った結果に似ています。

考えを奇妙にする

人間のような経験で訓練された心が、それらの経験から一般化することによって何を「想像」できるかを探求する、これまでに行われた研究について考えてみましょう。

しかし、別の人は何を想像するでしょうか?

具体的には、これまで使用してきたニューラル ネットワークに変更を加え、それが生成される画像にどのような影響を与えるかを確認できます。

ネットワークの構築方法については後ほど詳しく説明しますが、391 個の異なる内部モジュールが関係しており、合計で約 10 億個のデジタル重みがあると言っても過言ではありません。

ネットワークがトレーニングされるにつれて、これらの数値の重みは、望ましい結果が得られるように慎重に調整されます。

しかし、単に変更するとどうなるでしょうか?最終的には、画像を生成できるネットワークが実現します。

しかし、ある意味では考え方が違ってくるので、結果として得られるイメージも異なる可能性があります。

そこで、非常に大まかな最初の実験として、連続する各モジュールを順番に「ノックアウト」し、その重みをすべてゼロに設定してみましょう。

ニューラル ネットワークにパーティー ハットをかぶった猫の画像を生成するように指示すると、次の画像が生成されます。

これらの結果をさらに詳しく見てみましょう。

ほとんどの場合、単一のモジュールをゼロにしても大きな違いはありません。たとえば、基本的には猫の表情を変えるだけかもしれません。

しかし、猫(とその帽子)を根本的に変えることもできます。

猫の形や位置を変えることができます (はい、これらの猫の足の形の一部は間違っています)。

他のモジュールをクリアすると、実際に猫の「レンダリング」が変わります。

しかし、他の場合には、状況がはるかに混乱し、解析が困難になる可能性があります。

時々明らかに猫がいるのですが、とても奇妙です。

時々、明確な構造があるのに猫とは何の関係もなさそうな画像が出てくることがあります。

何かが重ね合わされているにもかかわらず、基本的に「ノイズ」だけが表示される場合もあります。

しかし、一部のモジュール (元のリストの最初と最後のモジュールなど) では、ゼロにすると基本的にシステムがまったく動作しなくなり、「純粋なランダム ノイズ」だけが生成されることになります。

以下で説明するように、私たちが使用しているニューラル ネットワーク全体の内部構造はかなり複雑です。たとえば、根本的に異なるタイプのモジュールがいくつかあります。

しかし、ネットワーク内のさまざまな場所にあるモジュールをゼロにした場合に何が起こるかを示す例がここにあります。ほとんどの場合、モジュールの位置とモジュールをゼロにすることによる効果との間には明確な相関関係がないことがわかります。

これまでのところ、一度に 1 つのモジュールをゼロにした場合に何が起こるかを確認しただけです。

以下に、複数のモジュールを連続してゼロにした場合に何が起こるかを示す、ランダムに選択された例をいくつか示します (映画「2001年宇宙の旅」に登場する架空の人工知能 HAL の運命に敬意を表して、これを「HAL 実験」と呼ぶこともできます)。

基本的に、画像内の「猫」が消えると、物事はますます奇妙になり始め、最終的には明らかにランダムになります。

代わりに、モジュール内の重みをゼロにする代わりにランダム化することができますが、結果は通常、少なくとも質的には同じになります。

他にできることは、ネットワーク内のすべての重みにランダム性を徐々に均等に混ぜることです。

以下に 3 つの例を示します。それぞれの場合で、0%、1%、2%、... のランダム性が追加されます。

同様に、ネットワーク内のすべての重みを徐々にゼロまで縮小することができます(1% ずつ増加:100%、99%、98%、...)。

あるいは、重みを徐々に増やしていくこともできます。

<<:  IoTとAIが出会うとき: テクノロジーの未来

>>:  DeepFakeはもう人々を騙せません!米国の大手テクノロジー企業7社が共同でAI生成コンテンツに透かしを追加

推薦する

旅の途中を突破せよ! OpenAIが秘密裏に新プラットフォームをテスト

著者: 徐潔成校正:Yun Zhao 「使ってみて、もうMidjourneyには興味がなくなった」。...

イスラエルの科学者がロボットにイナゴの耳を装備させ、バイオセンサーで画期的な進歩を遂げる

[[387788]]簡単に言えば、ロボットに「聞く」機能を持たせるには、音声信号を電気信号に変換し、...

考えてみると恐ろしいですね! 1億人のネットユーザーが騙された、AIは変装の技術を習得

最近、「射雁英雄伝」でアテナ・チュウが演じる「黄容」の顔をAI技術で楊冪の顔に差し替えた動画が、ネッ...

5Gは19の業界に浸透?これらの5つの分野はもっと注目に値する

2019年、「5G」は大いに期待されるテクノロジーの流行語となり、その人気は間違いなく人工知能に劣り...

医療における人工知能:医師よりも正確

[[339138]]新しい医療用人工知能システムは、医師と同じように患者を診察することができます。画...

AIが人事と採用を変える3つの方法

[[407974]]人工知能はこれまで以上にビジネスにおいて重要な役割を果たしています。プロフェッシ...

ディープラーニングにおける次の大きな進歩は機械読み取りでしょうか?

機械読み取りはディープラーニングの次の大きな進歩となるだろう[[184205]] 2016 年を振り...

...

音声認識:市場の見通しは有望だが、コア技術にはまだブレークスルーが必要

人工知能製品が私たちの生活の中でますます普及するにつれて、テクノロジーの発展は社会の関心の焦点となっ...

機械学習とデータサイエンスは戦略的な洞察を提供する

デジタル時代では、データが新たな通貨になりました。世界中の組織が、その大きな可能性を引き出すために機...

人工知能の分野でどのように計画するか? マイクロソフトはこうする

[51CTO.com からのオリジナル記事] 人工知能は勢いを増しており、多くの大手企業が独自の計画...

...

高齢者介護の問題がますます顕著になり、人工知能が大きな注目を集めている

[[431999]]新しい世代が古い世代に取って代わると、古い世代はどこへ行くのでしょうか。今日、2...

440億ドル!マスク氏がツイッター買収に成功 トランプ氏「アカウントが復活してもツイッターは使わない」

4月26日、海外メディアの報道によると、2週間後、マスク氏によるツイッター買収がようやく決着した。...

ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

Appleの春のカンファレンスまで残り4日となりました。カラフルなAR招待状が届きました。これはク...