2023年の人工知能の進歩を、大きなモデルだけでなく考察する記事

2023年の人工知能の進歩を、大きなモデルだけでなく考察する記事

2023年には、ビッグモデル間の激しい競争が繰り広げられるでしょう。これ以外に、AI分野ではどのような新たなブレークスルーがあるのでしょうか?

さあ、ベストセラー本『Python Machine Learning』の著者、Sebastian Raschka の年末総括が完成しました。

これを読めば、次のことがわかります。

RLHF は今年非常に人気が高まっていますが、実際に使用されているモデルは多くありません。現在、オープンソース コミュニティから「ブレイクアウト」すると予想される代替モデルがあります。

大型モデルの透明度はどんどん低くなっています。最も透明度が高いのはLlama 2ですが、スコアは 54 しかありません。

オープンソース モデルの次のステップは必ずしも「大規模」なものではありません。Mixed Experts Model (MoE) がブレークスルー ポイントとなる可能性があります。

Sebastian Raschka 氏は、大規模言語モデルに加えて、CVPR 2023 に基づくコンピューター ビジョンの進歩についても説明しました。最後に、AI の現在の限界と 2024 年の技術予測について語りました。

通りかかったネットユーザーたちは、この要約は非常に正確だと言った。

△機械翻訳、参考のみ

この年次概要に何が含まれているか見てみましょう。

2023年のAIのブレークスルー:ビッグ言語モデル

今年は大型モデルの分野で大きな革新はないようですが、昨年の拡大をベースにしたものになっています。

  • ChatGPT (GPT-3.5) が GPT-4 にアップグレードされました
  • DALL-E 2 から DALL-E 3 へ
  • Stable Diffusion 2.0 が Stable Diffusion XL にアップグレードされました

しかし、学界と産業界は依然として忙しく、いくつかの新しい傾向と新しい内容を次のようにまとめています。

重要なAIモデル論文の情報量は急激に減少している

まず、業界の研究者は論文の中で研究の詳細を開示することがますます少なくなっています。

OpenAI は以前、GPT-1、GPT-2、GPT-3、InstructGPT に関する論文でモデル アーキテクチャとトレーニング プロセスを詳細に公開していました。

しかし、GPT-4 以降、OpenAI は構築プロセスについてまったく言及していません。

GPT-4 アーキテクチャに関する真実か虚偽か不明な唯一の情報は噂から来ています。

GPT-4 は、それぞれ最大 1110 億個のパラメーターを持つ 16 個のサブモジュールで構成されるエキスパート混合 (MoE) モデルです...

Meta についても同様で、トレーニング データセットについては最初の Llama 論文で詳細に説明されていましたが、Llama 2 ではまったく言及されていません。

それでも、ラマ 2 は大型モデルの中で最も広く知られています。スタンフォード大学は最近、大規模モデルの透明性指数に関する研究を発表しました。Llama 2 は 54 点を獲得して透明性で 1 位、GPT-4 は 48 点を獲得して 3 位でした。

モデルの詳細は企業秘密だが、セバスチャン・ラシュカ氏は、このトレンドは2024年も続くと思われるため、注目する価値があると考えている。

大規模なモデル展開コンテキストの長さ

今年の大規模言語モデルのもう 1 つの傾向は、入力のコンテキストの長さを拡張することです。

以前、GPT-4 のコンテキスト長がまだ 32k だったときに、競合製品の Claude 2 はコンテキストを 100k トークンに増やし、PDF ファイル入力をサポートしました。

その後、GPT-4 は大幅に更新され、新しいバージョンの GPT-4 Turbo はコンテキスト長の記録を破り、128k トークンをサポートするようになりました。

GitHub Copilot などの一部のプログラミング ツールも、コンテキスト ウィンドウの長さを増やしています。

オープンソースのビッグモデルが「小さくて美しい」を競う

より小さなモデルを使用して、より大きなモデルのパフォーマンスに合わせることは、オープンソース界における「新しい遊び方」です。

現在、既存のオープンソースの大規模モデルのほとんどは、依然としてプレーンテキスト モデルです。

これらのモデルの研究の焦点の 1 つは、1000 億未満のパラメータを持つ「小さなモデル」を使用して、GPT-4 のテキスト処理機能をベンチマークすることです。

1.3B phi1.5、7B Mistral、7B Zephyr など、単一の GPU で実行できる小型モデルも多数あります。

Sebastian Raschka 氏は、オープンソース モデルの次のブレークスルー ポイントは必ずしも「より大きな」ものではないと考えており、おそらく MoE もオープンソース モデルを新しいレベルに引き上げる可能性があると考えています。

これは、ハードウェア リソースのコスト、データ量、開発時間などの要因により行われる場合があります。

しかし、10月17日にリリースされたばかりのFuyu-8Bなど、注目に値するオープンソースのマルチモーダル大型モデルもあります。

Fuyu-8Bは、画像を処理する際、画像を直接小さな断片に切り分け、これらの小さな断片を線形投影層に入力します。この層では、小さな断片のベクトル表現を自動的に学習し、画像の特徴を抽出するために追加の事前トレーニング済みエンコーダーを使用する必要がなくなり、モデルアーキテクチャとトレーニングプロセスが簡素化されます。

同時に、Llama-Adapter v1やLlama-Adapter v2などの微調整手法の登場により、既存の大規模モデルがマルチモーダル分野に拡大することが期待されます。

RLHFの代替品が登場

RLHF (人間のフィードバックによる強化学習) は、大規模モデル向けの最も人気のあるテクノロジーの 1 つです。このトレーニング方法は、InstructGPT、ChatGPT、Llama 2 で使用されています。

しかし、分析会社stateof.aiが発表した「2023年AI現状レポート」によると、実装が複雑なためか、まだ広く普及していないことが分かった。現在、ほとんどのオープンソース プロジェクトは、依然として命令の微調整に重点を置いています。

しかし、RLHF に代わる新たな選択肢として、直接選好最適化 (DPO) が登場しました。

この方法はスタンフォード大学の研究チームによって提案されました。

DPO は、報酬関数と最適戦略間のマッピング関係を使用して、強化学習の問題を、参照データに適合するようにポリシー ネットワークをトレーニングするだけで済む問題に変換します。

つまり、モデリング報酬関数をバイパスし、嗜好データに基づいて言語モデルを直接最適化します。

DPO を使用した後、モデル出力の品質も RLHF/PPO よりも向上します。

最近、DPO メソッドでトレーニングされた最初のオープンソースの大規模モデル、HuggingFace H4 チームの Zephyr-7B が登場しました。これは、いくつかのタスクで RLHF でトレーニングされた Llama 2-70B を上回りました。

トランスフォーマーの新たなライバル候補

今年は、巡回 RWKV や畳み込み Hyena など、Transformer に代わるいくつかの選択肢が登場しました。

これらの新しいフレームワークは主にモデルの効率性を向上させるために使用されます。もちろん、Transformer アーキテクチャに基づく大規模言語モデルは依然として主流です。

大型モデルが生産方法を変える

テキスト処理に加えて、生産性の向上 (Microsoft のフル ツール セット) やコードの作成 (GitHub Copilot) などのシナリオでも、大規模なモデルが徐々に使用されるようになっています。

Ark-Invest はかつて、プログラミングアシスタントによってコーディングタスクの完了時間を約 55% 短縮できると予測するレポートを発表しました。

コーディング アシスタントは今後も存在し続け、さらに改善されるだろうということは間違いありません。

これは Stack Overflowのようなプラットフォームにとって何を意味するのでしょうか?

また、「2023 AI ステータス レポート」では、StackOverflow と GitHub の Web サイト トラフィックの比較チャートでいくつかの問題が示されています。

さて、これらは大きなモデルにおけるいくつかの新しい開発です。

しかし、AIの「もう半分」であるコンピュータービジョンに関しては、2023年にはこの分野で無視できない多くの新しい展開が見られるでしょう。

コンピュータービジョンはどうですか?

今年は大規模言語モデルに注目が集まっていますが、実はコンピュータービジョンの分野もトップクラスのコンピュータービジョンカンファレンスCVPR 2023に見られるように大きな進歩を遂げています。

今年のCVPR 2023には合計2,359本の論文が寄せられました。研究のほとんどは以下の4つのトピックに焦点を当てており、Sebastian Raschka氏が1つずつ紹介しました。

Visual Transformer が限界を打ち破る

まずは最も人気のあるビジュアルトランスフォーマーを見てみましょう。

大成功を収めた Language Transformer アーキテクチャをモデルにした Visual Transformer (ViT) は、2020 年に初めて登場しました。

ビジュアル Transformer の原理は、マルチヘッド アテンション ブロックで同じ自己注意メカニズムを使用する言語 Transformer の原理と似ています。

違いは、ビジュアル トランスフォーマーは単語にラベルを付けるのではなく、画像にラベルを付ける点です。画像にラベルを付ける場合でも、良好な結果が得られます。ただし、常に制限がありました。比較的リソースを消費し、CNN よりも効率が低いため、実用化が妨げられていました。

今年のCVPR論文「EfficientViT: Cascaded Group Attentionを備えたメモリ効率の高いビジョントランスフォーマー」では、研究者らはこの制限に対処するための新しい効率的なアーキテクチャを紹介した。

オリジナルの MobileViT と比較すると、EfficientViT メソッドは最大 6 倍高速です。

主な革新は 2 つあります。1 つは完全に接続されたレイヤー間の単一のメモリバインドされたマルチヘッド自己注意モジュールであり、もう 1 つはカスケードされたグループ注意です。

拡散モデルを活用する新しい方法

安定拡散により、拡散モデルが人気を博しています。このタイプのモデルで使用される方法は次のとおりです。

モデルをトレーニングする際、トレーニング データにノイズが徐々に追加され、純粋なノイズになります。次に、ニューラル ネットワークをトレーニングして、モデルが逆のノイズ除去を学習し、ノイズからデータを合成できるようにします。

ほとんどの拡散モデルは CNN アーキテクチャを使用し、CNN ベースの U-Net を採用しています。

しかし、今年の研究「All are Worth Words: A ViT Backbone for Diffusion Models」では、研究者らは拡散モデルの畳み込み U-NetバックボーンをViT と交換して U-ViT に変換しようと試みました。

研究者らは新しいアーキテクチャを評価し、新しい U-ViT 拡散モデルが最良の GAN に匹敵し、条件付き画像生成タスクでは他の拡散モデルよりも優れていることを発見しました。また、テキストから画像への生成では、同じデータセットでトレーニングされた他のモデルよりも優れた性能を発揮しました。

新しい3D再構成法がNeRFを上回る

3D 再構築はコンピューター ビジョンの研究焦点の 1 つであり、3D スキャン、仮想現実、拡張現実、3D モデリング、映画やビデオ ゲームのモーション キャプチャに使用されます。

今年の SIGGRAPH 2023 の優秀論文の中に、3D 再構成の分野における「爆発的な」新技術と呼ばれるもの、ガウススプラッティングがあります。

これにより、NeRF と以前のレンダリング エンジンとの非互換性、特別に設計されたハードウェアの必要性、レンダリングのオーバーヘッドといった長年の課題が克服されました。

この方法の核心は、異方性共分散行列を最適化することで複雑なシーンを表現するために、シーン表現として3D ガウスを使用することです。

この論文では、スタッガード3Dガウスパラメータ最適化と適応密度制御法も提案し、高速で微分可能なGPUラスタライズ法を設計し、異方性スポットをサポートし、高速バックプロパゲーションを実現し、高品質の新ビュー合成を実現し、 1080p解像度で初のリアルタイムレンダリングを実現しました。

わずかなトレーニング時間で、Gaussian Splatting は InstantNGP の最高品質に到達でき、51 分間のトレーニングで、Mip-NeRF360 よりもパフォーマンスがさらに向上します。

最近、華中科技大学とHuaweiの研究チームが4Dガウススプラッティングを提案しました。

4D ガウス スプラッティングにより、効率的なトレーニングとストレージ効率を維持しながら、リアルタイムの動的シーン レンダリングが可能になります。

RTX 3090 GPU では、4D ガウス スプラッティングは、従来の最先端の方法と同等かそれ以上の品質レベルを維持しながら、800×800 解像度で 70 FPS のパフォーマンスを実現します。

この研究が発表されるとすぐに、ネットユーザーは興奮して叫んだ。

3D再構築に革命を起こします。

もちろん、Sebastian Raschka 氏は CVPR での NeRF (Neural Radiance Fields) 手法に関するいくつかの新たな進歩についても共有しました。

NeRF は主にニューラル ネットワークをトレーニングしてシーン内の各ポイントの色と密度を学習させ、この情報を使用してリアルな 3D シーン レンダリング イメージを生成します。

しかし、NeRF には欠点があります。光沢のある物体は通常は鮮明ではなく、半透明の物体の色もぼやけてしまいます。

「ABLE-NeRF: ニューラル放射場のための学習可能な埋め込みによる注意ベースのレンダリング」という研究において、研究者は自己注意ベースのフレームワークと学習可能な埋め込みを導入することでこの問題に対処し、半透明で光沢のある表面の視覚品質を向上させます。

物体検出とセグメンテーション

オブジェクトの検出とセグメンテーションは、古典的なコンピューター ビジョンのタスクです。

これら 2 つのタスクには違いがあります。オブジェクト検出は境界ボックスと関連ラベルを予測することですが、セグメンテーションは各ピクセルを分類して前景と背景を区別することです。

△ 物体検出(左)とセグメンテーション(右)

さらに、セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションの 3 つのカテゴリに分類できます。

「Mask DINO: オブジェクトの検出とセグメンテーションのための統合トランスフォーマー ベースのフレームワークに向けて」というタイトルの研究では、DINO メソッドが拡張されています。

Mask DINO は、既存のすべてのオブジェクト検出およびセグメンテーション システムよりも優れたパフォーマンスを発揮します。

DINOはノイズ除去アンカーボックスを改良したDETRであり、DETRはFacebook AIが提案するエンドツーエンドのターゲット検出モデルです。Transformerアーキテクチャを採用し、よりシンプルで柔軟なターゲット検出方法を提供します。

AIの限界と将来の展望

AI 分野は今年大きな進歩を遂げましたが、主に次のようないくつかの制限がまだ残っています。

1. 大きな模型の錯視

大規模言語モデルでは、有害なコンテンツや幻覚を生成するという問題が依然として残っています。

今年は、Nvidia が立ち上げた RLHF や NeMO Guardrails など、多くのソリューションが登場しましたが、これらのソリューションは実装が難しかったり、適切に処理されなかったりします。

これまでのところ、大規模モデルのフォワードパフォーマンスを損なうことなくこの問題を解決する信頼できる方法はありません。

2. 著作権紛争

同時に、AI分野における著作権紛争はますます激化しています。

多くの大手モデルメーカーが訴訟を起こされ、オープンソースデータセットBooks3は著作権侵害問題で棚から撤去されました。Llama、GPT-Jなどはこれをトレーニングに使用しています。

全体として、多くの関連規制はまだ起草および改訂の過程にあります。

3. 評価基準の一貫性がない

学術研究の世界における一つの問題は、ベンチマークやランキングリストが時代遅れになっている可能性があることです。

テストに使用されたデータセットが漏洩し、大規模言語モデルのトレーニングデータになった可能性があります。

人間に好みを尋ねることは、大規模モデルのパフォーマンスを評価する一般的なアプローチですが、複雑です。

GPT-4 を評価に使用した研究報告も多数あります。

4. メリットはまだ明らかではない

生成 AI はまだ探索段階ですが、テキスト生成ツールと画像生成ツールはどちらも特定のシナリオで人々を助けることができます。

しかし、特に運用コストが高い状況において、これらのツールが企業に本当に利益をもたらすことができるのかどうかについては、業界では依然として激しい議論が続いています。

OpenAIは昨年、運営費として5億4000万ドルの損失を出したと報じられている。最近まで、OpenAI が現在、月額 8,000 万ドルの収益を上げており、これは同社の運営費を賄うか、それを上回ると予想されているというニュースがありました。

5. 偽画像が蔓延している

生成 AI によって引き起こされるもう 1 つの問題は、ソーシャル メディア上での偽の写真やビデオの急増です。

この問題は古くから存在しており、PSなどのツールでも解決できます。しかし、AI技術はシンプルで高速であり、この現象を新たなレベルに押し上げています。

AI が生成したコンテンツを自動的に認識しようとする AI システムは他にもありますが、テキスト、画像、ビデオのいずれであっても、これらのシステムの信頼性は高くありません。

6. 希少なデータセット

著作権やその他の問題に関する紛争により、多くの企業 (Twitter/X、Reddit など) が無料 API アクセス ポイントを閉鎖しました。これは、収益を増やすためと、データ収集者が AI トレーニングのためにプラットフォーム データを収集するのを防ぐためです。

良いアプローチとしては、LLM トレーニングに使用することが明示的に許可されているデータセットをコンパイル、収集、整理するためのクラウドソーシング データセット プラットフォームを構築することが考えられます。

セバスチャン・ラシュカ氏は、2024年を見据えて、大規模言語モデルがコンピューターサイエンス以外のSTEM研究分野に大きな影響を与えると考えています。

一方、高性能GPUの不足により、大手企業はカスタマイズされたAIチップの開発を進めており、これらのハードウェアを主流のディープラーニングフレームワークに完全かつ安定的にサポートする方法が重要な課題となっています。

オープンソースの世界では、より多くの MoE (エキスパート モデル) も期待できます。データセットの共同作成や、オープンソース モデルにおける従来の教師ありの微調整に代わる DPO も将来的には実現されるでしょう。

セバスチャン・ラシュカとは誰ですか?

セバスチャン・ラシュカは2017年にミシガン州立大学で博士号を取得し、以前はウィスコンシン大学マディソン校で統計学の助教授を務めていました。

2022年、セバスチャン・ラシュカは同社を退職し、スタートアップ企業のライトニング AI に最高 AI 教育責任者として入社しました。

さらに、彼は「Python Machine Learning」を含む数冊のベストセラー本の著者でもあります。

AIブログ「Ahead of AI」ではAI分野のさまざまな研究を頻繁にまとめており、多くのファンを獲得している。

<<:  Androidスマートフォンを開くと、画面全体に「Big Model」という3つの単語が表示されます。

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

データクローズドループ! DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

Alibaba Cloudは、Llama2トレーニングの展開を全面的にサポートする最初の企業であり、企業が独自の大規模モデルを迅速に構築できるように支援します。

Llama2 はオープンソースであり、無料の商用利用をサポートしているため、オープンソースの大規模...

上級幹部との対話で洞察を得る - IBM アジア太平洋地域社長ブレンダ・ハーベイ氏による変革、クラウド コンピューティング、自動化に関する講演

調査データによると、過去18か月間、企業はさまざまな緊急事態に対応するために技術革新のペースを加速さ...

...

...

UBS: AI需要は2022年から2027年の間に年平均61%の成長率で増加すると予想

金融投資機関UBSは最近、人工知能端末の需要に関する長期予測を、2020年から2025年までの年平均...

ベイジアン機械学習: 古典的なモデルとコード実装!

[[420350]]ベイズの定理は確率モデルにおける最も有名な理論の 1 つであり、機械学習でも広...

救世主か、それとも公敵か? 人工知能の現在と未来を説明する記事

囲碁チャンピオンのイ・セドルを破ったロボット「アルファ碁」から、卓球ができるKUKAロボット、遠隔手...

XNOR-NETテクノロジー詳細解説:AIテクノロジーがモバイル端末に搭載され、新時代が到来

[[187849]]この時代、人間の生活はスマートデバイスから切り離すことはできません。持ち歩く携帯...

エネルギー分野における人工知能の5つの主要な応用

[[435080]]エネルギー分野における AI の革新と進歩により、企業がエネルギーを生産、販売、...

Hadoop、Spark、Hive とはいったい何でしょうか? アルゴリズムを開発するには、これらを学ぶ必要がありますか?

[[422888]]みなさんこんにちは。私は梁唐です。最近、多くの新人がアルゴリズム エンジニアに...

人工知能の技術的・経済的特徴とその「活性化効果」

人工知能(AI)とは、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーショ...