AIが初めて人間よりも上手に写真から話すことができるようになりました！マイクロソフトの認知AIチームは、Transformerを超える視覚単語リストの事前トレーニングを提案

写真を見て会話できるAIは人間よりも優れたパフォーマンスを発揮するのか？最近、Azure は写真の内容を正確に判断できる新しい人工知能サービスをひっそりと開始しました。その背後にあるビジュアル語彙技術は、Transformer ベースの先行技術を上回り、nocaps チャレンジチャンピオンシップで優勝しました。

検索した画像があまり関連性がないことに気づいたことはありませんか?

現在、多くの検索エンジンは画像のテキストタグに基づいていますが、私たちの世界では毎日無数の写真が生み出され、その多くはタグなしで直接インターネットにアップロードされており、画像検索に多くの混乱をもたらしています。

システムが写真に正確な説明を自動的に追加できれば、画像検索の効率が大幅に向上します。

写真について話すAI: テンプレートベースもTransformerベースも満足のいくものではない

画像の説明文を自動生成できる「画像説明」が近年注目を集めています。しかし、学界と産業界の両方でこれまでに達成された成果は、満足できるものとは程遠いものです。

画像記述システムでは、一方では画像を認識するためのコンピュータービジョンが必要であり、他方では認識されたオブジェクトを記述するための自然言語が必要です。ラベル付けされた画像は対象を絞ったトレーニングに使用できますが、ラベル付けされていない新しいオブジェクトが表示された場合、システムは失敗するでしょうか?

新しいものを明確に説明するというこの問題は、長い間人々を悩ませてきました。

人工知能の分野では、モデルの品質を検証するためにベンチマークが通常使用されます。例えば、NLP分野ではGLUE、SuperGLUEなどが、画像認識分野ではImageNetなどが利用されるでしょう。

[[346957]]

モデルがトレーニングデータなしで画像の説明を完了できるかどうかをテストするために、nocaps が誕生しました。 Nocaps は、モデルがまだ登場していないオブジェクトを正確に記述できるかどうかを測定できます。

画像を見て説明する従来の主な方法は 2 つあります。1 つはテンプレート生成、もう 1 つは Transformer ベースの画像とテキストの相互作用の事前トレーニングです。

テンプレート生成方法は単純なシナリオでは使用できますが、画像とテキストの深い関係を捉えることはできません。Transformer ベースのモデルでは大量のラベル付きデータが必要なので、nocaps には適していません。

これらの問題を解決するために、Microsoft の Cognitive Services チームの研究者は、Visual Vocabulary Pre-training (VIVO) と呼ばれるソリューションを提案しました。

テキストと画像を組み合わせる必要がなく、VIVOが画像認識のノーキャップで初めて人間を上回るチャンピオンに

VIVO は、テキストラベルのないデータに対してテキストと画像のマルチモーダル事前トレーニングを実行できるため、ペアの画像とテキストデータへの依存がなくなり、ImageNet などのデータセットのカテゴリラベルを直接使用できます。 VIVO を使用すると、モデルはオブジェクトの視覚的な外観と意味の関係を学習し、視覚的な語彙を構築できます。

この視覚的語彙とは何でしょうか?実際、これは画像とテキストの結合特徴空間です。この特徴空間では、ゴールデンレトリバーと牧羊犬、アコーディオンと楽器など、意味が似ている単語が一緒にクラスタ化されます。

事前トレーニングと語彙リストの構築が終わったら、モデルは少数の共通オブジェクトを含む画像とテキストのペアのデータで微調整するだけで済みます。その後、モデルは共通のテンプレート文を自動的に生成できます。使用時には、これまで見たことのない単語に遭遇しても落ち着いて対応でき、これは画像と説明の各部分を切り離すことに相当します。

したがって、VIVO は、強力な事前トレーニング済みのオブジェクト認識機能を活用できるだけでなく、テンプレートの汎用性を活用して、新しく出現するオブジェクトにも対応できます。

Azure AI 認知サービス担当最高技術責任者の Xuedong Huang 氏は、ビジュアルワードリストの事前トレーニングは、リンゴの絵の下に「リンゴ」という単語、猫の絵の下に「猫」という単語など、個々の単語と画像を関連付ける絵本を最初に子供たちに読ませることに似ていると説明しました。

視覚語彙の事前トレーニングは、本質的には、この種の運動記憶を実行するようにシステムをトレーニングすることです。

現在、VIVOはnocapsチャレンジでSOTAの結果を達成し、初めて人間のパフォーマンスを上回りました。

VIVO の成功は、チャレンジにおける SOTA だけではありません。すでに実用化されています。

SOTA画像ベース音声認識が利用可能になりました。AIは反復のグレーゾーンに留まることはできません。

世界保健機関によれば、視覚障害者はあらゆる年齢層で推定2億8500万人おり、そのうち3900万人が失明している。

障害のあるユーザーが画像や動画から情報を得たい場合、自動的に生成された画像の説明や字幕（またはさらに音声に変換されたもの）に頼らざるを得ず、字幕が意味をなすかどうかに関わらず、自動的に生成された説明を非常に信頼しています。

「理想的には、誰もが文書、ウェブ、ソーシャルメディア上の画像に説明を追加するでしょう。そうすれば、視覚障碍者もコンテンツにアクセスし、会話に参加できるようになります。」しかし、これは現実的ではなく、多くの画像には対応するテキストがありません。

「画像の説明はコンピュータービジョンの中核機能の 1 つであり、幅広いサービスを提供できます」と、Azure AI Cognitive Services の最高技術責任者である Xuedong Huang 氏は述べています。

現在、VIVO の画像を通じて話す機能は Azure AI に統合されており、誰でも独自のビジュアル AI アプリケーションに統合できます。

[[346958]]

Huang Xuedong 氏は、VIVO の画期的な技術を Azure に導入してより幅広い顧客ベースにサービスを提供することは、研究上の画期的な技術だけではなく、この画期的な技術を Azure 上の製品に変換するのにかかる時間の方が重要であると考えています。

VIVO ベースのミニプログラム「Seeing AI」はすでに Apple App Store で入手可能で、Azure では視覚障害者が無料で使用できる無料 API もリリースされています。 Azure の翻訳サービスを追加すると、Picture Speaking は 80 以上の言語をサポートできます。

実際、あまりにも多くの研究室の SOTA テクノロジーが継続的な反復のグレー状態に陥り、当初のミッションを完了できていません。

絵で話すことは認知知能へのほんの一歩です。グーテンベルクの印刷機にヒントを得て、私たちは新しい魔法を生み出すことができます

近年、マイクロソフトは既存の技術を超えて人工知能を進歩させることを目指しています。

Azure Cognitive Services の最高技術責任者である Huang Xuedong のチームは、より包括的かつ人間的な方法で世界を学び、理解する方法を模索してきました。

彼は、認知能力を向上させるには、単一言語のテキスト (X)、音声や視覚などの感覚信号 (Y)、多言語 (Z) という 3 つの要素が重要だと考えています。

これら 3 つの交差点には、人間の声をより良く聞き、話し、見て、理解できる、より強力な AI を作成できる新しい種類の魔法、XYZ コードが存在します。

「XYZ-Code は、クロスドメイン、クロスモーダル、クロスリンガル学習という当社の長期ビジョンを実現していると信じています。当社の目標は、今日の人間と同じように、幅広い下流の AI タスクの表現を学習できる事前トレーニング済みモデルを構築することです。」

黄氏のチームは、1440年に印刷機を発明し、人類が知識を迅速かつ大量に共有できるようにしたドイツの発明家ヨハネス・グーテンベルクからインスピレーションを得た。歴史上最も重要な発明の一つであるグーテンベルクの印刷機は、社会の発展に革命をもたらしました。

グーテンベルクと彼の印刷機

今日のデジタル時代において、認知知能のビジョンは、人間のように学習し推論し、さまざまな状況や意図について正確な推論を行い、合理的な決定を下すことができる技術を開発することです。

過去 5 年間で、音声認識対話、機械翻訳、質疑応答対話、機械読解、画像説明など、AI の多くの分野で人間と同等の成果を達成しました。

これら 5 つのブレークスルーにより、人工知能への飛躍が可能であるという自信がさらに高まりました。XYZ コードは、多感覚および多言語学習の重要な部分となり、最終的には人工知能をより人間らしくします。

グーテンベルクの印刷機がコミュニケーションのプロセスに革命をもたらしたのと同じように、認知知能は人工知能の偉大なルネッサンスの実現に貢献するでしょう。

絵物語を体験するためのリンク:

https://apps.apple.com/us/app/seeing-ai/id999062298

<<: ニューラルネットワーク: 神秘的で驚異的なニューラルネットワークの完全な歴史

>>: ヨーロッパは最も強力なAIスーパーコンピュータ「レオナルド」をリリースし、スーパーコンピューティングシステムの状況は変化する

ブログ

ブログ

AIが初めて人間よりも上手に写真から話すことができるようになりました！マイクロソフトの認知AIチームは、Transformerを超える視覚単語リストの事前トレーニングを提案

写真について話すAI: テンプレートベースもTransformerベースも満足のいくものではない

テキストと画像を組み合わせる必要がなく、VIVOが画像認識のノーキャップで初めて人間を上回るチャンピオンに

SOTA画像ベース音声認識が利用可能になりました。AIは反復のグレーゾーンに留まることはできません。

絵で話すことは認知知能へのほんの一歩です。グーテンベルクの印刷機にヒントを得て、私たちは新しい魔法を生み出すことができます

汎用人工知能は可能か？

アンドリュー・ン氏との独占インタビュー: 今後 10 年間の AI、ハードウェア優先からデータ優先へ

カメラを開くと、2Dイラストがリアルタイムでアニメーション化されます。中国のプログラマーが制作し、デモはオンラインで入手できます。

深夜に老黄が登場し、世界最強のAIチップH200が発売されました！パフォーマンスが90%向上し、Llama 2の推論速度が2倍になり、多数のスーパーコンピューティングセンターが参入

モノのインターネットの可能性を最大限に引き出す方法

AIは自分が生成したものを理解できるのか？GPT-4とMidjourneyを試した後、誰かがこの問題を解決した

プログラマーがエキスパートになるためのプログラミングアルゴリズムトップ 10_IT テクノロジーウィークリー 380 号

推薦する

アリババクラウドは、70億のパラメータを持つTongyi Qianwen大規模モデルをオープンソース化し、無料で商用利用可能に

年次指数レポートではAIが「産業化」しているが、より優れた指標とテストが必要とされている

人工知能は 5 つの主要な地球規模の問題に解決策をもたらす | ダボスブログ

6 つの大きな障害に直面していますが、AI イノベーションはそれらをうまく克服できるでしょうか?

人工知能: スマートシティを支える頭脳

信じてはいけないクラウドコンピューティングと人工知能に関する2つの誤解

中国移動研究所のチャン・ヤオビン氏：主流の人工知能技術スタックの詳細な議論と実践的な概要

Canalys：2027年までにPCの60％がAI機能に対応し、出荷台数は1億7500万台を超える見込み

人工知能は偏見を排除するのに役立ちますか?

最新のAIはプログラマーを失業させるでしょうか？

ロボットコーチ＋模擬運転、焦作全通自動車学校が運転訓練の先駆者