ミストラル・ミディアムが誤って漏洩?このリストのトップにランクインした謎のモデルは、AIコミュニティで多くの議論を巻き起こしました

ミストラル・ミディアムが誤って漏洩?このリストのトップにランクインした謎のモデルは、AIコミュニティで多くの議論を巻き起こしました

「私は今、Miqu が Perplexity Labs の Mistral-Medium と同じモデルであることを 100% 確信しています。」

最近、「ミストラル・ミディアムモデルのリーク」に関するニュースが注目を集めています。

リークされた噂は、「Miqu」と呼ばれる新しいモデルに関連しています。言語モデルの感情知能を評価するベンチマークEQ-Bench(EQ-BenchはMMLUと約0.97、Arena Eloと約0.94の相関関係があります)では、MiquはGPT-4を除くすべての主要モデルを直接上回り、そのスコアはMistral-Mediumに非常に近いです。

画像ソース: https://x.com/N8Programs/status/1752441060133892503?s=20

オープンソースアドレス: https://huggingface.co/miqudev/miqu-1-70b

非常に強力なモデルですが、このプロジェクトの発行者は謎の人物です。

「誰があなたを作ったのか」と聞かれると、ミクは直接自己紹介しました。「私はミストラル・アル・チームによって作られました。」

誰かが両方のモデルに同じテスト問題を送信しましたが、受け取った回答は両方ともロシア語で表現されていました。テスターの疑惑はさらに深まった。「標準的なパズルはわかっているようだが、いたずらならロシア語で答えられるように調整できるはずがない」

翻訳の過程で、表現はほぼ同じになります。

Miqu はどこから来たのですか?それは本当にミストラルミディアムですか?

2 日間にわたる白熱した議論の中で、多くの開発者が 2 つのモデルを比較し、その結果、次の可能性が示されました。

1. Miqu は Mistral-Medium です。

2. Miqu は確かに MistralAI のモデルですが、これは初期の MoE 実験バージョンか何かです。

3. Miqu は Llama2 の微調整されたバージョンです。

先ほど、最初の可能性を支持する開発者が挙げた理由を紹介しました。事件が進展するにつれ、より多くの開発者が暗号解読のような操作に参加し、2つのモデルに対してより詳細なテストを実施しました。システムをテストするために夜更かしした Reddit ユーザーが実施したテストでは、Miqu は MistralAI モデルの初期バージョンに近いことが示されました。

開発者は、このモデルをドイツ語の 4 つの専門的なオンライン データ保護トレーニング/試験に適用しました。テストデータ、質問、およびすべての指示はドイツ語で、キャラクターカードは英語でした。翻訳スキルと言語間の理解力をテストします。

具体的な試験方法は以下の通りです。

  • 情報を提供する前に、モデルにドイツ語で指示します。「いくつかの情報をお伝えしますので、この情報に注意してください。ただし、回答するときは、理解したことを確認するために「OK」だけを使用し、他には何も言わないでください。」これは、モデルが指示を理解して実行する能力をテストするためです。
  • トピックに関する情報をすべて提供した後、モデルにテストの質問をします。これは、最初の質問と最後の質問は同じですが、オプションの順序と文字 (X/Y/Z) が変更された複数選択の質問 (A/B/C) です。各テストは 4 ~ 6 問の質問で構成され、合計 18 問の複数選択問題があります。
  • モデルは、正解数に基づいてランク付けされ、まずコースに関する情報を提供された後に出された回答、次に事前情報なしで盲目的に出された回答が考慮され、同点の状況が考慮されました。すべてのテストは独立したユニットであり、各テスト間でコンテキストはクリアされ、セッション間でメモリや状態は保持されません。

詳細なテストレポートは次のとおりです。

miqudev/miqu-1-70b GGUF Q5_K_M、32K コンテキスト、Mistral 形式: 4+4+4+5=17/18 の複数選択問題のみが正しく回答されました。事前情報なしで質問に答え、正しい答えを出します: 4+3+1+5=13/18。データ入力は指示どおりに「OK」で確認されませんでした。

テスト中、開発者は、Miqu が Mixtral と多くの類似点を持っていることを発見しました。優れたバイリンガルのドイツ語のスペルと文法、返信への翻訳の追加、返信へのメモやコメントの追加などです。

ただし、開発者のテストでは、Miqu のパフォーマンスは Mixtral-8x7B-Instruct-v0.1 (4 ビット) よりも劣っていましたが、Mistral Small および Medium よりも優れていました。しかし、Mixtral 8x7B Instruct よりはるかに優れているわけではありません。開発者は、Miqu は漏洩した MistralAI モデル、おそらくは古い概念実証モデルである可能性があると推測しています。

これは、2 番目の主張を裏付けるために私たちが見た中で最も詳細なテストです。

しかし、一部の開発者は、Miqu は MistralAI とは何の関係もなく、むしろ Llama 70B に似ていると考えています。その理由は、Miqu のアーキテクチャが Llama 70B と「まったく同じ」であり、「専門家による混合モデルではない」からです。

同様に、テストの結果、Miqu は確かに Llama に似ていることに気づいた人もいます。

しかし、スコアの差から判断すると、Miqu と Llama 70B は明らかに同じモデルではありません。

そのため、一部の人々は、Miqu は Llama の微調整されたバージョンか、Mistral-Medium の初期バージョンのいずれかであると結論付けました。

前者が真実であれば、Miqu は Mistral-Medium データセットで微調整された Llama 70B である可能性があります。

後者が真実であれば、Miqu は Mistral API の単なる抽出であり、「米国が月面着陸を偽造した」レベルの茶番劇である可能性があります。

最後の質問は、誰がそれを漏らしたのか?

多くのXプラットフォームユーザーから提供された手がかりによると、流出したと疑われるモデルはもともと4chanというウェブサイトに投稿されていた。このウェブサイトは完全に匿名のリアルタイム メッセージング フォーラムであり、ユーザーは登録せずにテキストやグラフィックのコメントを投稿できます。

もちろん、これらの結論は主観的なものです。すべての AI 研究者にとって、このドラマを終わらせるには「真実」が必要です。

<<:  テレンス・タオが新プロジェクトを立ち上げ:リーンで素数定理を証明、研究計画は完成

>>:  Microsoft OpenAI はヒューマノイドロボットに 1 億ドルを投資する予定です。ネットユーザーはマスク氏に叫んだ

ブログ    
ブログ    
ブログ    

推薦する

行列乗算の3Dインサイト: これがAIの思考法

行列乗算の実行プロセスを 3D で表示できれば、行列乗算を学ぶのはそれほど難しくないでしょう。今日で...

...

人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明

[[338620]]画像はPexelsよりこの記事はWeChatの公開アカウント「Big Data ...

エッジコンピューティング時代の到来は AI にどのような影響を与えるのでしょうか?

[[270736]]近年、人工知能はテクノロジー界で注目されている分野です。中国では、Megvii...

ディープラーニングにおける正規化の概要(Python コード付き)

編集者注: 日々の仕事や研究において、データ サイエンティストが遭遇する最も一般的な問題の 1 つは...

Zigbeeプロトコルスタックの暗号化アルゴリズムについての簡単な説明

先ほど、Zigbee プロトコル スタックのいくつかの原則と構造を紹介しました。すでに理解しているか...

...

7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

近年、人工知能などの新世代情報技術や5Gなどの新世代通信技術の急速な発展に伴い、あらゆる分野で科学技...

テンセントクラウドがAIペイント製品をリリース、25以上の生成スタイルをサポート

9月10日、テンセントクラウドは9月7日に開催された2023テンセントグローバルデジタルエコシステム...

...

IBM Cloud Pak for Data 4.0 で大規模なインテリジェント オートメーションを統合

あなたのビジネスが本当に予測可能かどうか、そしてデータ担当者、モデル、アプリケーションが適切なデータ...

人工知能の最前線:ブレークスルーの機会と希望

[[253441]]人工知能技術の進歩、産業の革新、産業の発展は、産業の基礎となる人工知能の最先端の...

カメラか LiDAR か?堅牢な 3D オブジェクト検出を実現するにはどうすればよいでしょうか?最新レビュー!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...