大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

最近、Claude 2 が発表され、Google Bard が中国語をサポートし、Open AI がコードインタープリターをリリースしました...

大型モデルが次々と発売されていますが、多種多様であり、1つのモデルですべての問題を解決できるわけではありません。

では、さまざまなタスクにどちらを使用すればよいのでしょうか?

写真

心配しないでください。ペンシルバニア大学ウォートン校のイーサン・モリック教授が選択ガイドをまとめています。

意思決定の困難に悩む人々に今、助けがあります!

このガイドでは、今夏時点の最新状況を網羅するだけでなく、さまざまなタスクにおけるさまざまな大規模モデルのパフォーマンス比較も含まれています。

6 つの使用シナリオで大規模なモデルを選択するためのステップバイステップ ガイドと、最適な無料および有料のオプションについて説明します。

これを見たネットユーザーはこう言った。

まず同僚のために保存しました。

写真

この選択ガイドに何が含まれているか見てみましょう。

さまざまなビッグモデルを使用して、これら6つのことを実行します

1. ライティング

最高の無料オプション: Bing、Claude 2

有料オプション: ChatGPT 4.0、ChatGPT+プラグイン

AI ライティングに関しては、Ethan Mollick 教授は GPT-4 が依然として最も信頼できるツールであると考えています。

家族は無料の Bing (クリエイティブ モード) を使用することもできますが、Claude も良い選択です。

具体的には、ビッグモデルを使用すると、下書きの作成、コンテンツの執筆の最適化、タスクの完了の支援、自分自身のロック解除(AI は困難を克服する方法を提供します)などが可能になります。

さらに、これらのツールは、Microsoft Office + GPT や Google Docs + Bard などの一部のオフィス アプリケーションに統合されています。

写真

上記の大規模モデルはすべて、テキストの書き込みでは優れたパフォーマンスを発揮しますが、「幻覚」や意味不明な結果も生成する可能性があります。特に、インターネットに接続されていない大規模なモデルでは、インターネット上で参考文献や引用情報を提供する必要があります。

GPT-4 は一般的にパフォーマンスが優れており、Bing 接続ネットワークは実際に関連する事実情報を取得できるため、Bing では幻覚が少なくなります。

イーサン・モリック教授は、以前の使用法にも問題を発見しました。

AI はそれ自体を説明することはできませんが、説明できると思わせるだけです。

写真

なぜ何かを書いたのか説明を求めると、もっともらしく見えるが完全に捏造された答えが返されます。思考プロセスについて質問すると、実際に自身の行動を調べているわけではなく、単にそうしているように聞こえるテキストを生成しているだけです。

2. 画像を作成する

最も透明なオプション: Adob​​e Firefly

オープンソースオプション: 安定した普及

最高の無料オプション: Bing、Bing Image Creator (DALL-E を使用)、Playground (複数のモデルを使用可能)

最高画質の画像: Midjourney

現在、主な画像生成ツールには以下のものがあります。

  • Stable Diffusion: オープンソースで、他のソースからの画像と組み合わせるのに特に適しています (使用方法については記事の最後を参照してください)。
  • DALL-E: OpenAI から提供され、Bing (クリエイティブ モードが必要) および Bing Image Creator に統合されています。 DALL-E は信頼性が高いですが、Midjourney ほど優れていません。
  • 中間段階: すべてのシステムの中で学習曲線が最も低い、今年最高のシステムです。 「thing-you-want-to-see --v 5.2」と入力するだけで (最後の --v 5.2 は重要で、最新のモデルを使用します)、非常に良い結果が得られるはずです。 Midjourney では Discord を使用する必要があります (手順については記事の最後を参照してください)。
  • Adobe Firefly: Adob​​e 製品に統合されていますが、生成される画像の品質の点では DALL-E や Midjourney ほど優れていません。 Adobe は、大規模なモデルをトレーニングする際には、使用権のある画像のみを使用すると述べています。

それぞれの大規模モデルのパフォーマンスは次のとおりです(各画像は同じプロンプトで異なるモデルによって生成された最初の画像です)

写真


△テーマ:「ゴッホにインスパイアされたスニーカーのファッション撮影」

これらのモデルは、トレーニング データの影響により、必然的に何らかのバイアスを持つことに注意してください。

第二に、トレーニングデータのほとんどはインターネットから取得されるため、透明性が欠けており、画像の著作権の問題も十分に明確ではありません。

さらに、現在のところ、画像生成では実際にテキストを作成することはできず、テキストのように見える一連のものを生成することしかできません。しかし、Midjourney は手の描写をうまく行っています。

3. 創造的思考

最高の無料オプション: Bing

有料オプション: ChatGPT 4.0 (ただし、Bing ネットワークによりパフォーマンスが向上する可能性があります)

良いアイデアを得るには通常、たくさんのアイデアが必要ですが、AI はたくさんのアイデアを生み出すのが得意です。

アイデア モードでは、Bing を使用して、ブライアン イーノのオブリーク戦略やマーシャル マクルーハンのテトラッドなど、お気に入りの型破りなアイデア生成テクニックを検索して適用したり、モデルに奇妙なアイデアを考え出させたりすることができます。

写真

4. ビデオを作る

最高のアニメーション ツール: D-iD (ビデオ内の顔をアニメーション化)、Runway v2 (テキストからビデオを作成する)

最高のサウンドクローン: ElevenLabs

AI 生成ビデオをワンストップサービスで提供できるようになりました。

キャラクター生成から脚本作成、吹き替えまですべてAIで行えます。

AI ツールを使用して生成されたビデオは、非常にリアルに見える場合があります。イーサン・モリック教授は自身の写真を使って「偽のビデオ」を作成した。

写真

しかし、これらのツールは倫理的に使用する必要があることに注意することが重要です。

5. ファイルとデータの取り扱い

データ(およびコードを使用した奇妙なアイデア): コードインタープリター

ドキュメント: Claude 2 (大きなドキュメント、または複数のドキュメントを同時に操作する場合)、Bing (小さなドキュメントや Web ページ用のサイドバー)

コードインタープリターは、アップロードされたファイルに対してコードを記述して実行することができ、生成された結果をダウンロードすることもできます。プログラムを実行したり、データ分析を行ったり、さまざまなドキュメント、Web ページ、さらにはゲームを作成したりするために使用できます。

Ethan Mollick 教授は、コード インタープリターを使用してデータの視覚化を処理する方法も確立しました(記事の最後にあるリンクを参照)

写真

PDF ドキュメントの処理に関しては、Claude 2 が依然として最適です。

イーサン・モリック教授は、Claudeに本全体を貼り付け、複雑な学術論文を多数与えて結果を要約するように指示したところ、Claudeは優れたパフォーマンスを発揮したと語った。

写真

それだけでなく、「この方法の証拠は何ですか?」などの質問を続けて、データをさらに調査することもできます。著者の結論は…

しかし、モデルが「幻覚」を生成することもあるため、この点には依然として注意を払う必要があります。

6. 情報を入手し知識を学ぶ

最高の無料オプション: Bing

有料オプション:子供向けにはKhanmigo(AI家庭教師)が利用可能

イーサン・モリック教授は、「幻覚」の危険性が高いため、これらの大規模なモデルを検索エンジンとして使用しない方がよいと考えています。

彼は、Bing はインターネットに接続されているため、「幻覚」が比較的少なくなるため、Bing の使用を推奨しました。しかし、慎重に使用すれば、特に検索エンジンがあまり良い結果を出さない状況では、AI は検索よりも有用な回答を提供できる場合が多くあります。

さらに、学習を支援するためにこれらの AI ツールを使用するのは良い選択です。イーサン・モリック教授も、良い「自動家庭教師」のヒントだと思ったことを教えてくれました。

写真

ポータル:
[1] https://www.jonstokes.com/p/stable-diffusion-20-and-21-an-overview (Stable Diffusion ユーザーガイド) [2] https://www.pcworld.com/article/540080/how-to-use-discord-a-beginners-guide.html (Discord ユーザーガイド)
[3] https://huggingface.co/spaces/society-ethics/DiffusionBiasExplorer (画像生成バイアスの観察)*
[4] https://www.oneusefulthing.org/p/a-quick-and-sobering-guide-to-cloning (Ethan Mollickが写真から動画を生成) [5] https://chat.openai.com/share/afe54a2d-0ad0-4166-b1aa-9a5394deff66 (コードインタープリターによるデータ視覚化)
[6] https://chat.openai.com/share/ec1018ec-1d86-4160-b587-354253c7d5cb (AIチューターのヒント)*

参考リンク:
[1] https://www.oneusefulthing.org/p/how-to-use-ai-to-do-stuff-an-opinionated

[2] https://twitter.com/emollick/status/1680586569617481728?s=20

<<:  スタンフォード大学の博士によるソロ作品!大規模モデルのトレーニング速度が再び2倍になり、彼はスタースタートアップの主任科学者として参加することを正式に発表した。

>>:  AIとIoTが交通管理に及ぼす6つの影響

ブログ    
ブログ    
ブログ    

推薦する

AIの限界を理解することがその可能性を実現する鍵となる

人工知能は多くの業界のワークフローを変革しました。デジタル顧客サービスアシスタント、自動運転車、無人...

2日間で星の数が1,000を突破:OpenAIのWhisperの蒸留後、音声認識が数倍高速化

少し前に、「テイラー・スウィフトが中国語を披露」する動画がさまざまなソーシャルメディアプラットフォー...

ゲームオーバー?強いAIと弱いAIの戦い

数週間前、Googleの人工知能(AI)子会社DeepMindが、Gato(同じトレーニング済みモデ...

新しい小売トレンドにおけるビッグデータと人工知能の応用は何でしょうか?

2018年は新しい小売業が爆発的に増加した年でした。誰もがそれを実感したと思います。以前よりもコン...

...

アルゴリズムエンジニアの日常生活において、トレーニングされたモデルが失敗した場合はどうすればよいでしょうか?

[[353013]]みなさんこんにちは。今日は職場でのアルゴリズム エンジニアの日常生活、つまりモ...

AI 計画ガイド: デジタル変革に不可欠なステップ

[[266832]]人工知能は今日のデジタル変革に欠かせない要素となり、デジタル変革の定義を完全に置...

2015年9月のプログラミング言語ランキング: 新しいインデックスアルゴリズムにより急上昇が解消

9月に、TIOBE Indexは改良されたアルゴリズムを使用してプログラミング言語の人気度を計算しま...

...

あなたは人工知能(AI)を本当に理解していますか?将来、人工知能によって多くの人が失業することになるのでしょうか?

[[286906]]人工知能 (AI) は、通常は人間の思考を必要とするタスクを実行できるインテリ...

赤ちゃんのように学習するディープマインド社の新モデルは、28時間で物理世界のルールを学習します

Deepmind は、直感的な物理学を学習できるモデルを構築し、モデルがなぜこの能力を実現するのか...

アコーディオン: HBase メモリ圧縮アルゴリズム

最近では、HBase ベースの製品の読み取り速度と書き込み速度に対する要件がますます高まっています。...

...

AIがデータセンターを管理するのに時間がかかる理由

ハイパースケーラーはすでに業務改善のために AI を活用していますが、他のほとんどのデータセンターで...