写真を見て会話できるAIは人間よりも優れたパフォーマンスを発揮するのか?最近、Azure は写真の内容を正確に判断できる新しい人工知能サービスをひっそりと開始しました。その背後にあるビジュアル語彙技術は、Transformer ベースの先行技術を上回り、nocaps チャレンジ チャンピオンシップで優勝しました。 検索した画像があまり関連性がないことに気づいたことはありませんか? 現在、多くの検索エンジンは画像のテキストタグに基づいていますが、私たちの世界では毎日無数の写真が生み出され、その多くはタグなしで直接インターネットにアップロードされており、画像検索に多くの混乱をもたらしています。 システムが写真に正確な説明を自動的に追加できれば、画像検索の効率が大幅に向上します。 写真について話すAI: テンプレートベースもTransformerベースも満足のいくものではない画像の説明文を自動生成できる「画像説明」が近年注目を集めています。しかし、学界と産業界の両方でこれまでに達成された成果は、満足できるものとは程遠いものです。 画像記述システムでは、一方では画像を認識するためのコンピューター ビジョンが必要であり、他方では認識されたオブジェクトを記述するための自然言語が必要です。ラベル付けされた画像は対象を絞ったトレーニングに使用できますが、ラベル付けされていない新しいオブジェクトが表示された場合、システムは失敗するでしょうか? 新しいものを明確に説明するというこの問題は、長い間人々を悩ませてきました。 人工知能の分野では、モデルの品質を検証するためにベンチマークが通常使用されます。例えば、NLP分野ではGLUE、SuperGLUEなどが、画像認識分野ではImageNetなどが利用されるでしょう。
モデルがトレーニングデータなしで画像の説明を完了できるかどうかをテストするために、nocaps が誕生しました。 Nocaps は、モデルがまだ登場していないオブジェクトを正確に記述できるかどうかを測定できます。 画像を見て説明する従来の主な方法は 2 つあります。1 つはテンプレート生成、もう 1 つは Transformer ベースの画像とテキストの相互作用の事前トレーニングです。 テンプレート生成方法は単純なシナリオでは使用できますが、画像とテキストの深い関係を捉えることはできません。Transformer ベースのモデルでは大量のラベル付きデータが必要なので、nocaps には適していません。 これらの問題を解決するために、Microsoft の Cognitive Services チームの研究者は、Visual Vocabulary Pre-training (VIVO) と呼ばれるソリューションを提案しました。 テキストと画像を組み合わせる必要がなく、VIVOが画像認識のノーキャップで初めて人間を上回るチャンピオンにVIVO は、テキスト ラベルのないデータに対してテキストと画像のマルチモーダル事前トレーニングを実行できるため、ペアの画像とテキスト データへの依存がなくなり、ImageNet などのデータセットのカテゴリ ラベルを直接使用できます。 VIVO を使用すると、モデルはオブジェクトの視覚的な外観と意味の関係を学習し、視覚的な語彙を構築できます。 この視覚的語彙とは何でしょうか?実際、これは画像とテキストの結合特徴空間です。この特徴空間では、ゴールデンレトリバーと牧羊犬、アコーディオンと楽器など、意味が似ている単語が一緒にクラスタ化されます。 事前トレーニングと語彙リストの構築が終わったら、モデルは少数の共通オブジェクトを含む画像とテキストのペアのデータで微調整するだけで済みます。その後、モデルは共通のテンプレート文を自動的に生成できます。使用時には、これまで見たことのない単語に遭遇しても落ち着いて対応でき、これは画像と説明の各部分を切り離すことに相当します。 したがって、VIVO は、強力な事前トレーニング済みのオブジェクト認識機能を活用できるだけでなく、テンプレートの汎用性を活用して、新しく出現するオブジェクトにも対応できます。 Azure AI 認知サービス担当最高技術責任者の Xuedong Huang 氏は、ビジュアル ワード リストの事前トレーニングは、リンゴの絵の下に「リンゴ」という単語、猫の絵の下に「猫」という単語など、個々の単語と画像を関連付ける絵本を最初に子供たちに読ませることに似ていると説明しました。 視覚語彙の事前トレーニングは、本質的には、この種の運動記憶を実行するようにシステムをトレーニングすることです。 現在、VIVOはnocapsチャレンジでSOTAの結果を達成し、初めて人間のパフォーマンスを上回りました。 VIVO の成功は、チャレンジにおける SOTA だけではありません。すでに実用化されています。 SOTA画像ベース音声認識が利用可能になりました。AIは反復のグレーゾーンに留まることはできません。世界保健機関によれば、視覚障害者はあらゆる年齢層で推定2億8500万人おり、そのうち3900万人が失明している。 障害のあるユーザーが画像や動画から情報を得たい場合、自動的に生成された画像の説明や字幕(またはさらに音声に変換されたもの)に頼らざるを得ず、字幕が意味をなすかどうかに関わらず、自動的に生成された説明を非常に信頼しています。 「理想的には、誰もが文書、ウェブ、ソーシャルメディア上の画像に説明を追加するでしょう。そうすれば、視覚障碍者もコンテンツにアクセスし、会話に参加できるようになります。」しかし、これは現実的ではなく、多くの画像には対応するテキストがありません。 「画像の説明はコンピューター ビジョンの中核機能の 1 つであり、幅広いサービスを提供できます」と、Azure AI Cognitive Services の最高技術責任者である Xuedong Huang 氏は述べています。 現在、VIVO の画像を通じて話す機能は Azure AI に統合されており、誰でも独自のビジュアル AI アプリケーションに統合できます。
Huang Xuedong 氏は、VIVO の画期的な技術を Azure に導入してより幅広い顧客ベースにサービスを提供することは、研究上の画期的な技術だけではなく、この画期的な技術を Azure 上の製品に変換するのにかかる時間の方が重要であると考えています。 VIVO ベースのミニプログラム「Seeing AI」はすでに Apple App Store で入手可能で、Azure では視覚障害者が無料で使用できる無料 API もリリースされています。 Azure の翻訳サービスを追加すると、Picture Speaking は 80 以上の言語をサポートできます。 実際、あまりにも多くの研究室の SOTA テクノロジーが継続的な反復のグレー状態に陥り、当初のミッションを完了できていません。 絵で話すことは認知知能へのほんの一歩です。グーテンベルクの印刷機にヒントを得て、私たちは新しい魔法を生み出すことができます近年、マイクロソフトは既存の技術を超えて人工知能を進歩させることを目指しています。 Azure Cognitive Services の最高技術責任者である Huang Xuedong のチームは、より包括的かつ人間的な方法で世界を学び、理解する方法を模索してきました。 彼は、認知能力を向上させるには、単一言語のテキスト (X)、音声や視覚などの感覚信号 (Y)、多言語 (Z) という 3 つの要素が重要だと考えています。 これら 3 つの交差点には、人間の声をより良く聞き、話し、見て、理解できる、より強力な AI を作成できる新しい種類の魔法、XYZ コードが存在します。 「XYZ-Code は、クロスドメイン、クロスモーダル、クロスリンガル学習という当社の長期ビジョンを実現していると信じています。当社の目標は、今日の人間と同じように、幅広い下流の AI タスクの表現を学習できる事前トレーニング済みモデルを構築することです。」 黄氏のチームは、1440年に印刷機を発明し、人類が知識を迅速かつ大量に共有できるようにしたドイツの発明家ヨハネス・グーテンベルクからインスピレーションを得た。歴史上最も重要な発明の一つであるグーテンベルクの印刷機は、社会の発展に革命をもたらしました。 グーテンベルクと彼の印刷機 今日のデジタル時代において、認知知能のビジョンは、人間のように学習し推論し、さまざまな状況や意図について正確な推論を行い、合理的な決定を下すことができる技術を開発することです。 過去 5 年間で、音声認識対話、機械翻訳、質疑応答対話、機械読解、画像説明など、AI の多くの分野で人間と同等の成果を達成しました。 これら 5 つのブレークスルーにより、人工知能への飛躍が可能であるという自信がさらに高まりました。XYZ コードは、多感覚および多言語学習の重要な部分となり、最終的には人工知能をより人間らしくします。 グーテンベルクの印刷機がコミュニケーションのプロセスに革命をもたらしたのと同じように、認知知能は人工知能の偉大なルネッサンスの実現に貢献するでしょう。 絵物語を体験するためのリンク: https://apps.apple.com/us/app/seeing-ai/id999062298 |
<<: ニューラル ネットワーク: 神秘的で驚異的なニューラル ネットワークの完全な歴史
>>: ヨーロッパは最も強力なAIスーパーコンピュータ「レオナルド」をリリースし、スーパーコンピューティングシステムの状況は変化する
執筆者 | Yifeng 2月中、ソラは当然のAIスターとなり、彼が公開した2つのAIビデオは数え切...
スティーブ・ジョブズが解雇されてから王として復帰するまでに12年かかりましたが、サム・アルトマンの場...
[[433085]]アルゴリズムは本質的に、1 つ以上の入力を受け入れ、内部計算とデータ操作を実行...
[[423040]] Pythonを使用してAI認識テストを実行します。具体的な方法は、リアルタイム...
Google のアルゴリズムは毎年 500 ~ 600 回も変更されますが、その多くは小さな変更です...
デンマークは、1970年代初頭から国家政策の一環として風力タービンに投資した最初の国の一つであり、こ...
大規模言語モデル (LLM) はさまざまな推論タスクで優れたパフォーマンスを発揮しますが、ブラックボ...
既存の大規模言語モデル、画像生成モデルなどは、少数のモーダルデータに対してのみ動作し、人間のように物...
01 用語このセクションでは、機械学習の概要とその 3 つの分類 (教師あり学習、教師なし学習、強化...
[[340820]] [51CTO.com クイック翻訳] 過去10年間、人工知能をめぐって大きな議...
人工知能は現在、ますます広く利用されるようになっています。ほとんどの場合、堅牢で適応性の高い AI ...
社会的支援ロボットは、自閉症スペクトラム障害(ASD)の子供たちが適切な行動とコミュニケーションを促...