この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 復旦大学の邱希鵬教授は「千人模型コンテストが開幕した」と述べた。 中国で初めてChatGPTのようなモデルを発表したMOSSチームのリーダーとして、彼は過去6か月間、国内外の大規模モデルの開発を見て、新たな洞察を得ました。 思百城科技が主催した第1回人工知能生成コンテンツに関する国際会議(AIGC 2023)で、彼は、大規模モデルはよりエンジニアリング指向であると誰もが言っているが、実際には、トレーニング目標の設計、メモリの最適化、自動評価、大規模モデルの普及、新しいアーキテクチャなど、解決すべき科学的課題がまだ多く残っていることを認めました。 MOSS のリリースから 6 か月の間に、彼のチームは一定の成果を達成しました。クロスモーダル音声モデル SpeechGPT とオプティマイザー LOMO は、650 億のパラメータ モデルを単一マシンで微調整できるようになりました。また、MOSS の中国語機能は ChatGPT を上回りました... しかし、Qiu Xipeng氏は、MOSSの商用化を急いでいるわけではなく、新しいアーキテクチャを探求し続け、大規模モデルのコーディングと数学的機能をさらに向上させていくことを明らかにした。 Quantum位との対談では、LIamaオープンソースエコシステム、国内の競争環境、大規模モデル業界の実装、大規模モデルの錯覚や評価ランキング操作など、現在存在する10の主要問題について語りました。 QuantumBit は、本来の意味を変えずに、以下の取り決めを行いました。
LIamaオープンソースエコシステムについてQuantum Bit : ビッグモデルは Android の時代に入ったのでしょうか? Qiu Xipeng : はい、全体的には LIama をベースにしたオープンソース エコシステムです。まだ GPT-4 より少し遅れています。多くの複雑なアプリケーションは GPT-4 でのみ実行可能であり、LIama にはさらなる改善が必要です。 Quantum Bit :具体的にどのような部分が改善されたのでしょうか? 邱希鵬:まだ基地が必要です。 Quantum位: LIama が市場環境にもたらす変化についてどう思いますか? Qiu Xipeng : 最初は多くのオープンソース モデルが存在しますが、最終的に 1 つが勝利するかもしれません。現時点では、LIama が勝利するようです。 量子ビット:なぜ? Qiu Xipeng : まず、パフォーマンスが十分に優れており、それをサポートする上流および下流のエコシステムがすでにかなり多く存在しています。新しいモデルを提案するときは、上流と下流の問題を考慮する必要があります。将来的に他の大型モデルが LIama に取って代わることは不可能ではありませんが、コストは非常に高くなり、生態系の連鎖を断ち切ることに相当します。 国内の競争環境についてQuantum Bit : 中国に第2のLIamaは存在するのか? 邱希鵬:中国では基本的に誰もが独自のことを行っています。大きな違いやパフォーマンスの向上がない限り、同等のエコシステムを確立することは困難です。できれば、国産モデルが Llama に取って代わることができればよいのですが、そうでなければ、当社の将来の開発の一部が制限される可能性があります。 Quantum Bit :今は数千のモデル間の戦いですが、将来的には少数の大きなモデルが勝つ戦いになるでしょう。 邱希鵬:確かにそうですね。しかし、現在は全体的なパフォーマンスが比較的均質化しているため、ユーザーの定着率を高めることは難しく、最終的にはパフォーマンスで勝つことが必要になります。 大型模型産業の進出について語るQuantum位:大型模型業界は「ラストマイル」に到達したとよく言われます。あなたはどう思いますか? 邱希鵬:ラストマイルかどうかは分かりませんが、業界の実装を大きく促進することは間違いありません。ビッグモデルは確かに人工知能のこれまでの応用パラダイムを変えました。これまでは、製品を作るには、データのラベル付けに多くの人手が必要でしたが、これは市場の大きな需要でした。しかし現在では、大規模なモデルではラベル付けされたデータがそれほど必要ないため、テクノロジーやアプリケーション全体の敷居が低くなっています。しかし、欠点は、より高い計算能力が必要になることです。 Quantum Bit :起業のチャンスは広がるのか? Qiu Xipeng : はい、より多くの端末アプリケーション向けです。誰もがビッグモデルを使用して、やりたいことを実行できます。 量子ビット:SFT と RLHF はまだ良いパラダイムを形成していません。産業応用のレベルに達するのはいつでしょうか? Qiu Xipeng : 現在、私たちは完全な技術パスセットを備えており、さらに垂直産業における大規模モデルの適用に役立つツールも多数あります。このような技術的なパス依存性により、閾値が非常に低くなる可能性があります。この技術はまだ比較的高いレベルの成熟度にあると思います。 量子ビット:普遍性を追求しながら大規模モデルのさまざまな分野のニーズをどうバランスさせるか? Qiu Xipeng :大規模モデル自体の汎用性が高い場合は、垂直分野の知識を補完するだけで十分かもしれません。この部分は特に難しいものではなく、コストも事前トレーニングよりもはるかに低くなります。 量子ビット:LIama2 は、SFT と RLHF で手動でラベル付けされた 100 万個のデータを使用しましたが、これはデータ量とコストの点で非常に大きいものです。 Qiu Xipeng : 最近の多くの大規模モデルは RLHF ステップを達成しておらず、SFT ステップのみを達成しています。 量子ビット:このステップは業界で実装するために必要なのでしょうか? 邱希鵬:必要ではありません。例えば、技術分野のモデルでは、いわゆる無害性や誠実さに特に注意を払うことはありません。コードを書けと言っているようなものです。一般的に言えば、整合はモデルの能力を低下させます。 評価におけるランキング操作の現象についてQuantum位:一部の大規模なモデルチームがランキングを不正に操作している現象について、どのようにお考えですか? 邱希鵬:現時点では、大規模モデルのさまざまな機能を反映できる特に優れたデータセットはなく、各方面が模索しているところです。しかし、現在の主な問題は、一般的に、生成アルゴリズム モデルを評価することが非常に難しいことです。 Quantum Bit : 例を挙げてください。 Qiu Xipeng : ChatGPT は Google のビッグモデルを超えることはできないかもしれませんが、ユーザーエクスペリエンスは優れています。本当の評価はやはり人間の本当の感情から来なければならないかもしれませんが、そのような評価のコストは比較的高く、定量化することは困難です。 Quantum Bit :客観的な指標はまだ必要か? Qiu Xipeng : それは依然として必要ですが、学術界にとっては、これまでのように方法を比較することが最善でしょう。最近はランキング操作をしようとする企業が多いですが、データを公開せず、どのように操作しているのかも詳しく説明していません。これは不公平な競争だと思います。 例えば、国産のC-Evalは非常に高品質であるにもかかわらず、発売から数日でリストから外れてしまい、学術的価値が低くなってしまいました。 大規模モデル幻覚の問題についてQuantum Bit : 大規模モデルの錯覚の分野では何か関連する進歩はありましたか? 邱希鵬:この分野ではまだあまり研究が進んでおらず、現在信頼できる方法はアプリケーション側で幻覚を排除することです。さらに、一致や否定的なフィードバックを通じて自分を特定する人もいます。しかし、私の個人的な意見としては、錯覚を排除することは、機械論的な観点から排除するのではなく、何らかの外部知識の検証を追加することによって解決できる可能性があるということです。 量子ビット:なぜ? 邱希鵬:モデルに基づく思考能力と大きく関係していると感じています。錯覚が消えてモデルの能力が低下する可能性があります。 Quantum Bit : 幻覚は悪いことではない? 邱希鵬:それは悪いことではないかもしれないが、状況に応じて使う必要がある。例えば、絵画の創作や科学的な発見には錯覚が利用されることがあります。 AIアライメントについてQuantum Bit : OpenAI にはスーパーアライメントチームがあり、最終的には AI と AI のアライメントにつながる可能性があります。これについてどう思いますか? Qiu Xipeng : 調整というのは、確かに非常に難しいことです。いわゆる AI は人間の価値観と一致していますが、私たち自身の人間的価値観を測定することは困難です。しかし、数学の問題を解いたり、チェスをプレイしたりするなど、AI の特定の能力は、その品質を人間が評価する必要がないため、AI を使用して調整する方がよいと考えられます。 量子ビット:数学と物理学の観点では、大規模なモデルを構築する能力がまだ不足しています。 Qiu Xipeng : この分野ではより質の高いデータセットが必要だと思います。 NLPへの影響について話すQuantum Bit : 大規模言語モデルは自然言語処理にどのような影響を与えますか? Qiu Xipeng : これは、フィールド全体を再分割する必要があることを意味します。初期には、さまざまな分野やタスクに応じて分割されていました。現在は、事前トレーニング、指導の微調整、RLHF などのさまざまな段階に応じて分割されています。これにより、誰もが行うことは比較的似通っており、以前ほど多様性がなくなってきています。 現在、大規模な言語モデルは数多く存在しますが、基本的にはTransformerアーキテクチャをベースとしており、トレーニングデータやトレーニング方法も同様です。 量子ビット:どのような課題をもたらすのでしょうか? 邱希鵬:まず、トラックが混雑していて、誰もがこのトラックに集中しています。もう1つは、プロンプトが非常に重要になり、以前の機能エンジニアリングに多少戻りつつあることです。また、コンピューティングパワーが比較的高く、エネルギー消費量が多く、客観的な評価指標を持つことが難しく、セキュリティの問題もあります。 これらの課題は、実際には事前トレーニングからアプリケーションまで、大規模モデルのあらゆる段階に及びます。 大規模モデルの科学的課題について語るQuantum Bit : 一般的に、大規模モデルはエンジニアリング指向が強いと考えられています。他に解決すべき科学的問題は何でしょうか? 邱希鵬:主に以下の点があります。
Quantum Bit :業界はこれらの問題に注意を払う必要がありますか? 邱希鵬:注目に値すると思います。現在、国内のいくつかのチームは基本的にエンジニアリングだけを見ていますが、実際には多くの課題が解決されていません。 Quantum Bit :大規模モデルにおける学界と産業界の分業はどうなっているのか? Qiu Xipeng : OpenAI 自身の研究チームと DeepMind の両方がこれらの問題を研究しているのと同じように、両者の間に役割分担があるとは思いません。 MOSSの進捗についてQuantum Bit : MOSS は次にどのような機能を向上させるのでしょうか? Qiu Xipeng : 新しいアーキテクチャ、および大規模モデルのコーディング機能と数学的機能をさらに改善することが可能です。 Quantum Bit :コストの状況はどうですか?たとえば、OpenAI は以前、毎日 70 万ドルを燃やしていることを明らかにしました。 邱希鵬:厳密に決めているわけではありませんが、毎日何百枚ものカードが使われています。 Quantum Bit :今後、アプリケーションエンド製品の開発も検討されますか? 邱希鵬:もしかしたらもっと遠い将来かもしれません。 量子ビット:なぜ? 邱希鵬:現在、大型モデルは数多く存在しますが、そのアーキテクチャは比較的似通っており、他の大型モデルと比べて独自性を形成していません。将来的に競争力を持つような技術革新があれば、商品化することも可能です。 Quantum Bit :予想時間はありますか? 邱希鵬:いいえ。 Quantum Bit :以前、より大きなパラメータを持つモデルがリリースされるとおっしゃっていましたが、これは推進されているのでしょうか? 邱希鵬:MOSS自体にはありませんが、チームは他部隊の大規模モデル訓練に参加したことがあります。 認知の変化について話すQuantum Bit :6 か月前と比べて、大規模モデルに対する理解はどのように変化しましたか? 邱希鵬:もちろん、最初は、なぜ大きなモデルがこれほどうまくできるのか誰も理解していませんでしたが、今ではそれが当然のことになっています。たとえば、SFT コマンドを微調整すると、人間の音声を理解できるようになります。これは、ChatGPT がリリースされる半年前、あるいはそれ以前には、誰もが思いつかなかったことです。 今日では、ビッグモデルに対する理解は変わり、もはやチャットのためだけのモデルではなく、意思決定モデルとして見られるようになりました。インテリジェント エージェントを含む、より複雑でインテリジェントな意思決定に誰もが参加できるようにします。 |
<<: 清華インテリジェント・ユニバースが大盛況。囚人のジレンマなどの実験のAIシミュレーションには、いくつかの簡単な設定行のみが必要です。
>>: クラウド アーキテクチャに生成 AI を追加するためのヒント
人間の子どもの最も基本的な運動知能、例えばつかむ、持ち上げる、あるいはキルトや衣服をたたむといった家...
4時間以上の対局の末、柯潔はAlphaGoに0.25ポイント差で負けた。対局後、アルファ碁の指導に参...
3年間「奇妙な病気」の治療を求めても効果がなかったのですが、ついにChatGPTによって診断に成功し...
ロボット産業は創業以来、大幅な収益成長を遂げてきました。 2023年までに、世界のロボット市場は年間...
テクノロジーは前例のない速度で進歩しており、モバイル コンピューティングの将来は変革的な進歩を約束し...
最近、第7回ビジョンと学習セミナー(VALSE)が厦門大学で成功裏に終了しました。 VALSE は ...
Atari ゲームを使って人工知能を研究するのは、ちょっと現実的ではないと感じますか?これでゲームボ...
[[415649]]最近、米国防総省は、大量の情報源を分析し、数日後の敵の行動を1分以内に予測し、事...
これは、「Hacker News のランキング アルゴリズムの仕組み」に続く、ランキング アルゴリズ...
ソフトバンクグループは、ノルウェーの倉庫自動化企業オートストアの株式40%を28億ドルで買収すること...
近年、ドローンは農業から物流、世界的な軍事作戦まで、多くの産業に革命をもたらしました。 これらの飛行...