すべては可能だ:コンピュータビジョンCVとNLPの分野はますます融合している

すべては可能だ:コンピュータビジョンCVとNLPの分野はますます融合している

[[347900]]

2020年10月、ディープラーニング分野のトップカンファレンスであるICLR 2021の論文投稿が終了しました。

このイベントでは、いくつかの著名人がディープラーニングの分野で新たな進歩を遂げました。この技術の変化はどのような影響をもたらすのでしょうか? Dongfang Linyu がお話しします。

CV コンピュータ ビジョンの分野における人工知能の応用では、CNN 畳み込みニューラル ネットワークが常に主流の地位を占めてきました。

Transformer アーキテクチャは、NLP 自然言語処理タスクで広く使用されています。

[[347901]]

両分野において、それぞれの技術は独自の強みを持ち、互いに干渉することはありません。

しかし、近年、専門家や学者はNLP分野でTransformerに関する国境を越えた研究に取り組んでおり、一定期間の実験を経て、いくつかの画像シナリオで非常に良い結果を達成しています。

ICLR 2021 には、標準的な Transformer アーキテクチャをコンピューター ビジョンの分野に直接適用し、新しい Vision Transformer モデルを提案し、複数の画像認識ベンチマークで現在の SOTA 方式に近いかそれ以上のパフォーマンスを実現する論文が掲載されています。

SOTA は state-of-the-art の略です。論文が SOTA と呼べるということは、提案されたアルゴリズム(モデル)の性能が現時点で最高であることを意味します。

この研究では、CNN への依存は必要ではなく、画像パッチのシーケンスに直接適用すると、トランスフォーマーが画像分類タスクで優れたパフォーマンスを発揮できることが示されています。

テスラAIの責任者であるアンドレイ・カルパシー氏は、この論文を具体的に転送し、次のように述べた。

コンピューター ビジョンと NLP の分野の統合が進んでいることを嬉しく思います。

技術の進歩により、すべてが可能になります。

NLP VS CV モデルのクロスボーダー学習が実行できれば、画像ビジョンの分野で Transformer は本来のリーダーである CNN の座を奪えるでしょうか?

これは非常に興味深い提案です。

ICLR 2021で注目に値する寄稿はありますか?Zhihuで、あるネットユーザーはこう言いました。

私たちは今、大きなモデルチェンジの前夜に立っており、ニューラル ネットワークの可能性はまだまだ無限大です。 CV と AI の世界全体を覆すのに十分な強力な新しいモデルが、氷山の一角を明らかにし、本格的に導入されようとしています。

人工知能は、基礎科学、ビジネスシナリオ、データ品質、エンジニアリング実践などの技術分野を密接に統合する必要がある総合的な分野であり、近年ではさらに多くの他の方向を統合しています。

人工知能のさまざまな分野は、技術的に統合したり、相互に置き換えたりすることができます。それはまた私たちにさらなるインスピレーションをもたらすかもしれません:

私たち人間は、自分の快適な領域から抜け出すことで、さまざまな分野を学び、統合し、変化する社会によりよく適応することができます。

デジタル化が徐々に世界を支配するにつれて、AI技術の統合と人間との国境を越えた統合は、社会の進歩にとってより強力な原動力となるでしょう。

あなたが思うこと?

AI の知識をさらに深めるには、Dongfang Linyu をフォローしてください。

<<:  ハードウェアとコードを分離し、APIを安定化したPyTorch Lightning 1.0.0が正式リリース

>>:  お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

ブログ    
ブログ    

推薦する

人工知能が普及しつつある今、将来はロボットの時代になるのでしょうか?

今は特に人工知能が普及していますが、将来はロボットの時代になることは絶対にありません。なぜなら、機械...

...

今日のアルゴリズム: 文字列の乗算

[[421393]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

分類アルゴリズムの概要

[[151327]]決定木分類アルゴリズム決定木誘導は古典的な分類アルゴリズムです。これは、トップダ...

アナリスト:Appleは早ければ来年末にも生成AIをiPhoneとiPadに統合する予定

10月22日、海通国際証券のアナリストであるPu Deyu氏が最近、Appleが早ければ2024年末...

機械学習モデルは展開するには大きすぎますか? 3つの解決策をご紹介します

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

モノのインターネット、人工知能、ブロックチェーン、どれがあなたにぴったりでしょうか?

今はお金を稼ぐのが難しく、ビジネスも簡単ではないと言う人もいますが、今こそ最高の時代だと言う人もいま...

スタンフォード大学の「バーチャルタウン」がオープンソース化:25人のAIエージェントが「ウエストワールド」に登場

「ウエストワールド」を見たことがある友人は、このドラマの舞台が未来の世界、巨大なハイテクな大人向けテ...

AI はデータセンターをよりスマートにするためにどのように役立ちますか?

[[383176]]今日、人工知能 (AI) は、これまで以上に高速にデータを収集、処理、分析する...

2022年の銀行業界における人工知能の応用

人工知能はあらゆる分野に革命をもたらしており、銀行業も例外ではありません。 調査によると、世界の人工...

いいえ!機械学習は単なる美化された統計ではありません。

ビッグデータダイジェスト制作編集者: JIN、Hope、Jiang Baoshangタイトル画像のパ...

20,000語の記事を処理できる、初の商用32kコンテキストオープンソースモデル「Giraffe」が登場

注意メカニズムに依存する大規模言語モデル (LLM) は通常、トレーニング中に固定のコンテキスト長を...

予想:2018年ワールドカップで優勝するのはどの国でしょうか?人工知能アルゴリズム分析が結果を教えてくれる

最近、世界で最も注目されているイベントはワールドカップです。現在、ロシアでは2018年ワールドカップ...

Moka、業界初となるAIネイティブHR SaaS製品「Moka Eva」をリリース、AGI時代を見据えた準備万端

2023年6月28日、Mokaは北京で2023年夏の新製品発表会を開催した。 Moka CEOのLi...