AppleがAI研究成果を公開、マルチモーダルLLMモデルFerretをリリース

AppleがAI研究成果を公開、マルチモーダルLLMモデルFerretをリリース

IT Homeは12月25日、Appleがコロンビア大学の研究者らと協力して2023年10月にオープンソースのマルチモーダルLLM「Ferret」をリリースすると報じたが、当時はあまり注目されなかった。

AIコミュニティの多くはFerretのリリースを見逃し、Appleが伝統的に「壁に囲まれた庭園」と考えられてきたこともあり、オープンソースLLM分野への予想外の参入を歓迎した。

今朝、医療におけるオープンソース AI に焦点を当てたヨーロッパの非営利団体を運営する Bart de Witte 氏が X に次のように投稿しました。「どういうわけか見逃していましたが、Apple は 10 月にオープンソース AI コミュニティに参加しました。Ferret のリリースは、Apple の広範囲にわたる AI 研究への取り組みを示すものであり、マルチモーダル AI のリーダーとしての地位を固めるものです...追記: ローカル大規模言語モデル (LLLM) が、再設計された iOS の統合サービスとして iPhone で実行される日を楽しみにしています。」

「2023年にあなたにとって最も予想外だったAIの展開は何でしょうか?私にとっては、AppleがオープンソースのLLM(非商用ライセンスではありますが)をリリースすることです」と、技術ブロガーでVentureBeatの寄稿者であるベン・ディクソン氏はLinkedInに書いています。

Ferret は非商用ライセンスに基づくオープンソースであるため、現在のバージョンは商用目的で使用できません。ただし、将来の Apple 製品やサービスで使用される可能性はあります。 AppleのAI/ML研究科学者Zhe Gan氏は10月のツイートでFerretの目的を説明し、「画像内のあらゆる場所のあらゆるものを、あらゆる粒度で参照して特定できる」と述べ、画像内のあらゆる形状の領域を使用してこれを実行できると述べた。

簡単に言えば、 Ferret は画像上の描画領域を検査し、その中の要素を識別して選択することができます。その後、識別された要素をクエリの一部として使用し、通常の方法で応答できます。たとえば、ユーザーが画像内の動物をハイライトして、それがどんな動物であるかを尋ねると、Ferret は種を識別し、ユーザーが画像内の特定の動物について言及していることを認識できます。また、画像内の他の要素のコンテキストを使用して、さらに応答を提供することもできます。

Ferret のリリースは研究者にとって大きな意義があり、Apple が AI 研究を徐々にオープンにしていることを示しており、これまでの神秘的で閉鎖的なイメージとは対照的だ。 Appleはインフラの課題にも直面している。 Appleは保有するAIサーバーの数を増やそうとしているが、ChatGPTのようなモデルと比較するとその規模はまだ不十分かもしれない。他社と連携して機能を拡張することに加え、オープンソース モデルは Apple が模索しているもう 1 つの道です。

IT Home は、Reddit の r/Apple セクションで Ferret が「トレーニングに 80GB のメモリを搭載した 8 つの A100 GPU を使用した」ことが判明したという興味深い詳細に気付きました。これは、過去にNvidia GPUとのサポート関係があったことを考えると、AppleによるNvidiaの珍しい支持と見られています。

<<:  NVIDIA が 2023 年のトップ 10 研究プロジェクトを公式に発表しました。 「Neuro Angelo」はAIを使って3D仮想世界を作り出し、数秒で本物そっくりのダビデ像に変身する

>>:  2030年までにAI/自動化によって消滅する6つの技術職

推薦する

Baidu Shen Dou: AIネイティブアプリケーションを作成するには2つのステップが重要

2024年1月10日、Honor MagicOS 8.0発表会と開発者会議において、Honor Te...

AIと自動化がプロセスマイニングを改善する6つの方法

企業のデジタル ツインを作成し、ロボティック プロセス オートメーション (RPA) などの自動化テ...

人工知能の実例5つ

ここでは、AI が日常生活で非常に正確に使用されている 5 つのベスト例を紹介します。人工知能 (A...

ロボットに髪を切らせるという突飛なアイデアを思いついた

一人でいて理髪店に行きたくない場合はどうすればいいでしょうか? YouTube ビデオブロガーの S...

4Paradigm が分子特性予測のための生成型 3D 事前トレーニング済みモデルを開発

論文タイトル: 分子特性予測のための自動 3D 事前トレーニング論文リンク: https://arx...

...

...

ロボットを活用する3つの革新的な方法

ロボットは、高齢の両親を助けたり、子供を教育したり、料理をしたりすることができます。ロボット産業は創...

...

面接に合格してNLPの扉を開くのに役立つNLPの簡単なガイド

弱い人工知能の時代が到来し、人々の日常生活はアルゴリズムが提供するサービスと切り離せないものとなって...

パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

最近、InflectionAI は新しい AI モデルをリリースしました。さらに衝撃的なのは、Inf...

人気のディープラーニングライブラリ23選のランキング

[[209139]] Data Incubator は最近、Github と Stack Overf...

自動運転はどこへ行ってしまったのか?

マスク氏が2021年末までに完全自動運転車を実現すると予言してから数ヶ月が経過したが、状況は2019...

プロンプトエンジニアリング

プロンプト エンジニアリング (コンテキスト プロンプトとも呼ばれる) は、モデルの重み/パラメータ...