オープンソースのラマ2の背後には、若い中国人たちの力がある

最近、Llama 2 のオープンソース化により、Yann LeCun 氏や業界関係者の多くが「ビッグモデルの状況は大きく変化した」と感嘆しています。

Meta は、オープンソースであることに加えて、Llama 2 は商用利用も無料であることも発表しました。 Llama 2 は、70 億、130 億、700 億のパラメータバージョンを提供し、Llama 1 よりも 40% 多くのトレーニングデータを備え、2 兆トークンに達します。微調整されたチャットモデルは、100 万の人間によるラベル付けされたデータでトレーニングされます。

結果から判断すると、Llama 2 は推論、エンコード、熟達度、知識テストなど、多くの外部ベンチマークで他のオープンソース言語モデルよりも優れています。一部のデータセットでは GPT-3.5 に迫る性能を発揮し、Google の PaLM (540B) に追いつき、それを上回ることができます。

Meta のオープンソースへの取り組みに対する取り組みを称賛する一方で、人々は Llama 2 開発チームに注目し始めています。 Gautier Izacard、Armand Joulin、Edouard Grave、Guillaume Lample、Timothee Lacroix など、LLaMA の中心的な著者の一部が Llama 2 の開発中に姿を消したことがわかります。

写真

Llama 2 技術レポート: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

中心著者の変更に加えて、Llama 2 の約 70 人の著者の中には 10 人以上の中国人学者が含まれています。

Machine Intelligenceは、Llama 2の開発に参加した以下の中国の学者をまとめました。誤りや不足などございましたら、コメント欄にてご指摘ください。

モヤ・チェン

Moya Chen 氏は Meta 社の大規模言語モデル (LLM) の研究エンジニアであり、7 月に一時同社を退職しました。 2015 年に入社して以来、プラットフォーム/ビジネスレピュテーション、コンピュテーショナルビデオグラフィー (CV、AR)、WorldXR (CV、AR、XR)、FAIR Labs (チャットボット)、FAIR/GenAI (LLM) に携わってきました。

彼女はカリフォルニア工科大学（Caltech）でコンピューターサイエンスの学士号を取得しています。

ジェレミー・フー

Jeremy Fu は現在、FAIR の研究エンジニアとして、大規模言語モデルに注力しています。彼は以前、Instagram の機械学習部門でコンテンツ理解とユーザーモデリングに携わっていました。 2021年1月からMetaでフルタイムで働き始めました。

彼はシドニーのニューサウスウェールズ大学でコンピューターサイエンスとビジネスの理学士号を取得しています。

ウェンイン・フー

Wenyin Fu は現在、Meta Data Center の ML パフォーマンスエンジニアとして、大規模な ML プラットフォームソリューションの展開の設計と最適化、および最高の容量 ROI を実現するためのデータセンターハードウェアソリューションの評価に重点を置いています。彼は 2019 年 5 月に Meta に入社し、以前は NVIDIA、AMD、Intel で働いていました。

彼は上海交通大学で電子工学と電気工学の学士号を取得し、ウィスコンシン大学マディソン校で電気工学とコンピュータ工学の博士号を取得しました。

シンシア・ガオ

Cynthia Gao は現在、Meta の製品データ運用部門のプロジェクトマネージャーとして、主に機械翻訳と生成 AI 大規模モデルの手動データ注釈付けと収集プロジェクトに取り組んでいます。以前は、FAIR を含むさまざまな部門で勤務していました。

彼女は北京師範大学、カリフォルニア大学デービス校（心理学および中国語と中国文化の学士号）、モントレー国際大学（翻訳およびローカリゼーション管理の修士号）で学びました。

ホウ・ルイ

Rui Hou は現在、Meta GenAI の研究科学者として、生成 AI テクノロジーと関連する生産アプリケーションに重点を置いています。彼はトヨタ・リサーチ・インスティテュートなどの機関でインターンシップを経験した後、2020年4月にMetaに入社しました。

同済大学で学士号を取得し、ミシガン大学で修士号（インテリジェントシステムとコンピュータサイエンスのダブルディグリー）と博士号（インテリジェントシステム）を取得しました。

Google Scholar: https://scholar.google.com/citations?user=PKHKqX0AAAAJ&hl=en

盧英海

Yinghai Lu は現在、Meta のチーフソフトウェアエンジニアであり、Meta インフラグループの AI 推論テクノロジーの責任者です。現在は、生成型 AI 推論の展開に携わっています。彼は 2016 年に Meta に入社し、広告とリールの推奨モデルの GPU 推論の展開を主導しました。

彼は同済大学で電気工学の学士号を取得し、復旦大学で電気工学の博士号を取得しました。

Google Scholar: https://scholar.google.com/citations?user=prBXsm8AAAAJ&hl=zh-CN

マオ・ユニン

Yuning Mao は現在、Meta GenAI の研究科学者です。上海交通大学の IEEE 優等クラスを卒業し、学士号を取得しました。また、イリノイ大学アーバナ・シャンペーン校でコンピューターサイエンスの博士号を取得しました。同大学の指導教官は Jiawei Han 教授でした。

彼の研究目標は、人々が情報や知識をより効果的かつ効率的に獲得できるようにすることです。この目標を達成するために、彼はテキストの要約と生成、質問応答、効率的なパラメータの微調整、分類の構築など、幅広い研究テーマに取り組んできました。最近では、Meta LLaMA モデルファミリ、特に大型モデルの安全性の側面の開発に携わっています。

個人ホームページ: https://morningmoni.github.io/

ニエ・イーシン

写真

Yixin Nie は現在、Meta AI の研究科学者です。彼は中国地質大学で学士号、シカゴ大学で修士号、ノースカロライナ大学チャペルヒル校でコンピューターサイエンスの博士号を取得しました。

彼の仕事は機械学習と自然言語処理に焦点を当てており、彼の研究の関心は機械による自然言語獲得のアイデアから生まれています。

個人ホームページ: https://easonnie.github.io/

シャオチン・エレン・タン

Xiaoqing Ellen Tan は現在、Meta AI のデータサイエンス研究者です。彼女は2018年に中山大学で薬学とコンピュータサイエンスの学士号を取得し、2019年から2021年までカーネギーメロン大学でコンピュータサイエンスの客員学生として過ごし、2022年にピッツバーグ大学で生物統計学の博士号を取得しました。

彼女の研究対象は、因果推論、データ統合、意思決定の公平性の分野における新しい統計および機械学習手法の開発です。

個人ホームページ: https://ellenxtan.github.io/

徐普新

Puxin Xu は現在、Meta AI のシニアデータエンジニアであり、主にマルチモーダルデータセット (テキスト、画像、ビデオ) と大規模モデルの事前トレーニングデータに取り組んでいます。彼は中山大学で学士号（人的資源と都市農村計画管理、および統計の二重専攻）を取得し、リーハイ大学で修士号（産業システム工学）を取得しました。

鄭燕

Zheng Yan は現在 Meta のソフトウェアエンジニアとして働いており、アカウントアクセスチームが遭遇する問題を AI を使って解決しています。以前は、スタンフォード大学のショーン・N・パーカーアレルギー・喘息研究センターでデータアナリストとして働いていました。彼はスタンフォード大学でコンピューターサイエンスの学士号を取得しています。

ユーチェン・チャン

Yuchen Zhang は現在、Meta AI のソフトウェアエンジニア (機械学習) / 研究エンジニアとして、大規模モデル (言語/マルチモーダル) のトレーニングと拡張、および大規模モデルにおける責任ある AI の研究に重点を置いています。彼女はエモリー大学で学士号を取得し、ペンシルベニア大学で工学とデータサイエンスの修士号を取得しました。

個人ホームページ: https://zycalice.github.io/

アンジェラ・ファン

アンジェラ・ファンは、機械翻訳を専門とするMeta AI Research Parisの研究科学者です。彼女は以前、ナンシーのINRIAとパリのFAIRでテキスト生成に焦点を当てて博士号を取得しました。それ以前は研究エンジニアとして働き、ハーバード大学で統計学の学士号を取得しました。

個人ホームページ: https://ai.meta.com/people/angela-fan/

<<: 陳一然教授の論文が2024 IEEE優秀論文賞を受賞しました！ STN-iCNN: エンドツーエンドの顔解析フレームワーク

>>: ImageNet-1K 圧縮 20 倍、Top-1 精度が初めて 60% を超える: 大規模データセット蒸留の転換点