大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

最近、Claude 2 が発表され、Google Bard が中国語をサポートし、Open AI がコードインタープリターをリリースしました...

大型モデルが次々と発売されていますが、多種多様であり、1つのモデルですべての問題を解決できるわけではありません。

では、さまざまなタスクにどちらを使用すればよいのでしょうか?

写真

心配しないでください。ペンシルバニア大学ウォートン校のイーサン・モリック教授が選択ガイドをまとめています。

意思決定の困難に悩む人々に今、助けがあります!

このガイドでは、今夏時点の最新状況を網羅するだけでなく、さまざまなタスクにおけるさまざまな大規模モデルのパフォーマンス比較も含まれています。

6 つの使用シナリオで大規模なモデルを選択するためのステップバイステップ ガイドと、最適な無料および有料のオプションについて説明します。

これを見たネットユーザーはこう言った。

まず同僚のために保存しました。

写真

この選択ガイドに何が含まれているか見てみましょう。

さまざまなビッグモデルを使用して、これら6つのことを実行します

1. ライティング

最高の無料オプション: Bing、Claude 2

有料オプション: ChatGPT 4.0、ChatGPT+プラグイン

AI ライティングに関しては、Ethan Mollick 教授は GPT-4 が依然として最も信頼できるツールであると考えています。

家族は無料の Bing (クリエイティブ モード) を使用することもできますが、Claude も良い選択です。

具体的には、ビッグモデルを使用すると、下書きの作成、コンテンツの執筆の最適化、タスクの完了の支援、自分自身のロック解除(AI は困難を克服する方法を提供します)などが可能になります。

さらに、これらのツールは、Microsoft Office + GPT や Google Docs + Bard などの一部のオフィス アプリケーションに統合されています。

写真

上記の大規模モデルはすべて、テキストの書き込みでは優れたパフォーマンスを発揮しますが、「幻覚」や意味不明な結果も生成する可能性があります。特に、インターネットに接続されていない大規模なモデルでは、インターネット上で参考文献や引用情報を提供する必要があります。

GPT-4 は一般的にパフォーマンスが優れており、Bing 接続ネットワークは実際に関連する事実情報を取得できるため、Bing では幻覚が少なくなります。

イーサン・モリック教授は、以前の使用法にも問題を発見しました。

AI はそれ自体を説明することはできませんが、説明できると思わせるだけです。

写真

なぜ何かを書いたのか説明を求めると、もっともらしく見えるが完全に捏造された答えが返されます。思考プロセスについて質問すると、実際に自身の行動を調べているわけではなく、単にそうしているように聞こえるテキストを生成しているだけです。

2. 画像を作成する

最も透明なオプション: Adob​​e Firefly

オープンソースオプション: 安定した普及

最高の無料オプション: Bing、Bing Image Creator (DALL-E を使用)、Playground (複数のモデルを使用可能)

最高画質の画像: Midjourney

現在、主な画像生成ツールには以下のものがあります。

  • Stable Diffusion: オープンソースで、他のソースからの画像と組み合わせるのに特に適しています (使用方法については記事の最後を参照してください)。
  • DALL-E: OpenAI から提供され、Bing (クリエイティブ モードが必要) および Bing Image Creator に統合されています。 DALL-E は信頼性が高いですが、Midjourney ほど優れていません。
  • 中間段階: すべてのシステムの中で学習曲線が最も低い、今年最高のシステムです。 「thing-you-want-to-see --v 5.2」と入力するだけで (最後の --v 5.2 は重要で、最新のモデルを使用します)、非常に良い結果が得られるはずです。 Midjourney では Discord を使用する必要があります (手順については記事の最後を参照してください)。
  • Adobe Firefly: Adob​​e 製品に統合されていますが、生成される画像の品質の点では DALL-E や Midjourney ほど優れていません。 Adobe は、大規模なモデルをトレーニングする際には、使用権のある画像のみを使用すると述べています。

それぞれの大規模モデルのパフォーマンスは次のとおりです(各画像は同じプロンプトで異なるモデルによって生成された最初の画像です)

写真


△テーマ:「ゴッホにインスパイアされたスニーカーのファッション撮影」

これらのモデルは、トレーニング データの影響により、必然的に何らかのバイアスを持つことに注意してください。

第二に、トレーニングデータのほとんどはインターネットから取得されるため、透明性が欠けており、画像の著作権の問題も十分に明確ではありません。

さらに、現在のところ、画像生成では実際にテキストを作成することはできず、テキストのように見える一連のものを生成することしかできません。しかし、Midjourney は手の描写をうまく行っています。

3. 創造的思考

最高の無料オプション: Bing

有料オプション: ChatGPT 4.0 (ただし、Bing ネットワークによりパフォーマンスが向上する可能性があります)

良いアイデアを得るには通常、たくさんのアイデアが必要ですが、AI はたくさんのアイデアを生み出すのが得意です。

アイデア モードでは、Bing を使用して、ブライアン イーノのオブリーク戦略やマーシャル マクルーハンのテトラッドなど、お気に入りの型破りなアイデア生成テクニックを検索して適用したり、モデルに奇妙なアイデアを考え出させたりすることができます。

写真

4. ビデオを作る

最高のアニメーション ツール: D-iD (ビデオ内の顔をアニメーション化)、Runway v2 (テキストからビデオを作成する)

最高のサウンドクローン: ElevenLabs

AI 生成ビデオをワンストップサービスで提供できるようになりました。

キャラクター生成から脚本作成、吹き替えまですべてAIで行えます。

AI ツールを使用して生成されたビデオは、非常にリアルに見える場合があります。イーサン・モリック教授は自身の写真を使って「偽のビデオ」を作成した。

写真

しかし、これらのツールは倫理的に使用する必要があることに注意することが重要です。

5. ファイルとデータの取り扱い

データ(およびコードを使用した奇妙なアイデア): コードインタープリター

ドキュメント: Claude 2 (大きなドキュメント、または複数のドキュメントを同時に操作する場合)、Bing (小さなドキュメントや Web ページ用のサイドバー)

コードインタープリターは、アップロードされたファイルに対してコードを記述して実行することができ、生成された結果をダウンロードすることもできます。プログラムを実行したり、データ分析を行ったり、さまざまなドキュメント、Web ページ、さらにはゲームを作成したりするために使用できます。

Ethan Mollick 教授は、コード インタープリターを使用してデータの視覚化を処理する方法も確立しました(記事の最後にあるリンクを参照)

写真

PDF ドキュメントの処理に関しては、Claude 2 が依然として最適です。

イーサン・モリック教授は、Claudeに本全体を貼り付け、複雑な学術論文を多数与えて結果を要約するように指示したところ、Claudeは優れたパフォーマンスを発揮したと語った。

写真

それだけでなく、「この方法の証拠は何ですか?」などの質問を続けて、データをさらに調査することもできます。著者の結論は…

しかし、モデルが「幻覚」を生成することもあるため、この点には依然として注意を払う必要があります。

6. 情報を入手し知識を学ぶ

最高の無料オプション: Bing

有料オプション:子供向けにはKhanmigo(AI家庭教師)が利用可能

イーサン・モリック教授は、「幻覚」の危険性が高いため、これらの大規模なモデルを検索エンジンとして使用しない方がよいと考えています。

彼は、Bing はインターネットに接続されているため、「幻覚」が比較的少なくなるため、Bing の使用を推奨しました。しかし、慎重に使用すれば、特に検索エンジンがあまり良い結果を出さない状況では、AI は検索よりも有用な回答を提供できる場合が多くあります。

さらに、学習を支援するためにこれらの AI ツールを使用するのは良い選択です。イーサン・モリック教授も、良い「自動家庭教師」のヒントだと思ったことを教えてくれました。

写真

ポータル:
[1] https://www.jonstokes.com/p/stable-diffusion-20-and-21-an-overview (Stable Diffusion ユーザーガイド) [2] https://www.pcworld.com/article/540080/how-to-use-discord-a-beginners-guide.html (Discord ユーザーガイド)
[3] https://huggingface.co/spaces/society-ethics/DiffusionBiasExplorer (画像生成バイアスの観察)*
[4] https://www.oneusefulthing.org/p/a-quick-and-sobering-guide-to-cloning (Ethan Mollickが写真から動画を生成) [5] https://chat.openai.com/share/afe54a2d-0ad0-4166-b1aa-9a5394deff66 (コードインタープリターによるデータ視覚化)
[6] https://chat.openai.com/share/ec1018ec-1d86-4160-b587-354253c7d5cb (AIチューターのヒント)*

参考リンク:
[1] https://www.oneusefulthing.org/p/how-to-use-ai-to-do-stuff-an-opinionated

[2] https://twitter.com/emollick/status/1680586569617481728?s=20

<<:  スタンフォード大学の博士によるソロ作品!大規模モデルのトレーニング速度が再び2倍になり、彼はスタースタートアップの主任科学者として参加することを正式に発表した。

>>:  AIとIoTが交通管理に及ぼす6つの影響

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

悪いことを学ぶのは簡単ですが、良いことを学ぶのは難しいです!人工知能は人間の人種や性別の偏見を継承する

編集者注: サンスティーンは『インターネット共和国』でアルゴリズムが私たちの認知世界に影響を与えると...

AIが金融犯罪を予測、検出、防止する方法

調査によると、金融詐欺は個人や企業に多大な損失をもたらします。銀行は、フィンテックと競争するために機...

...

...

自分で作成したデータセット、TensorFlow を使用した株価予測チュートリアル

[[211061]] STATWORX チームは最近、Google Finance API から S...

通信 AI 市場は 2031 年に 388 億ドルに達すると予想されます。5G/6G と AI の統合により、さまざまなメリットがもたらされます。

4G と 5G の世界的な展開は商用サービスの進歩よりも速く、6G は 2030 年までに登場する...

...

ロボットセンサー市場は2026年までに40億ドルを超える

AIとIoTをロボットシステムに統合することで、その応用範囲が大幅に拡大すると期待されています。市場...

「システムアーキテクチャ」マイクロサービスサービス劣化

[[238592]] 1. はじめにサービス低下とは何ですか?サーバーの負荷が急激に高まると、実際の...

...

自動運転は衛生分野に適用され、問題点に直接対処し、将来性が期待できる

自動運転技術の開発は加速しており、商業的な検討も日々増加しています。現段階では、業界では貨物輸送と旅...

韓国の常温超伝導体の著者が論文撤回を要求!論文には欠陥があり、改善された後、通常のジャーナルに移されました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

注目を浴びるAIとゲームは、どんな火花を散らすことができるのでしょうか?

[[202722]] 2005年、JJ Linは「Number 89757」で「人間を模倣した機械...

...