今週、データマイニングのトップカンファレンスであるACM KDD 2023が米国ロングビーチで開幕しました。5日間のメインカンファレンスでは、丸一日を大規模モデルに費やしました。 Open AI、Meta、Zhipu AI、Google DeepMind、Microsoft、Intelなど、大規模言語モデル分野の最前線に立つ企業や研究者が素晴らしい意見交換を行いました。 これは、中国の大規模な言語モデルの専門家が同じ舞台で競い合い、国際的な大企業と深い交流を持つ数少ない機会の 1 つでもあります。 Big Model Open Day の基調講演者には、Microsoft チーフ サイエンティスト兼テクニカル フェローの Jaime Teevan、OpenAI ChatGPT チーム メンバーの Jason Wei、Zhipu AI CEO の Zhang Peng、Google DeepMind チーフ サイエンティスト兼リサーチ ディレクターの Denny Zhou、Meta FAIR リサーチ エンジニアの Vedanuj Goswami が名を連ねました。講演者は、将来の研究を促進するビッグ モデル、言語モデルの推論機能、Llama 2、GLM-130B および ChatGLM、ビッグ モデルのパラダイムと課題などのトピックについて意見を共有しました。 このイベントでは、大規模言語モデルに関する最新の研究の進歩とさまざまな分野でのその応用、そして信頼できる大規模言語モデルの構築方法という 2 つの主要テーマに焦点が当てられました。みんなが何を言ったか聞いてみましょう。 ジェイソン・ウェイ、OpenAI大規模言語モデルの復活:パラダイムと課題Jason Wei は OpenAI ChatGPT 開発チームのメンバーです。以前は、Google Brain チームの上級研究科学者として、思考連鎖プロンプトの普及に取り組み、命令調整に関する初期の作業を共同で主導し、大規模言語モデルの出現に関する研究を執筆しました。 Jason の共有トピックは「大規模言語モデルのルネッサンス: パラダイムと課題」です。彼はまず、大規模言語モデルの 3 つの主な特性、すなわちスケーリング則、出現能力、推論能力について概説し、これらの特性が自身の AI 研究分野にどのように影響するかを検討しました。 次に、ジェイソンは彼と他の人たちが LLM 推論機能に関して行った研究成果を発表しました。 1 つ目は「思考の連鎖」です。 LLM にアイデアを促せば、その応答の質は飛躍的に向上します。 2 番目のアイデアは「自己一貫性」です。複数の世代をサンプリングし、最も一般的な答えを選択します。自己一貫性により、言語モデルにおける思考連鎖推論が改善されます。 3 番目のアイデアは「Least-to-Most Prompting」です。これは、LLM が問題をさまざまなタスクに分割し、簡単なものから難しいものへと分類することを要求します。 張鵬、Zhipu AIGLM-130BからChatGLMへZhipu AI の CEO として、張鵬氏はチームを率いて、1,300 億のパラメータを持つ大規模なバイリンガル (中国語と英語) 言語モデルである GLM-130B の開発に成功しました。 2022 年 8 月からこのモデルはオープンソースになっており、精度と堅牢性の点で GPT-3 davinci に匹敵します。 2023年3月14日、Zhipu AIはGLM-130Bをベースに、ChatGPTに似た会話型ロボット製品であるChatGLMを正式にリリースしました。さらに、オープンソースのコンパクトバージョンである ChatGLM-6B と ChatGLM2-6B は、世界中で 5,000,000 回以上ダウンロードされ、Hugging Face トレンドチャートで 28 日連続 1 位を獲得し、GitHub で 44,000 を超えるスターを獲得しました。 最近、Zhipu AIはChatGLMをChatGLM2にアップグレードし、複数のパラメータサイズを導入し、その機能を大幅に向上させました。ChatGLM2-6Bのコード生成モデルに基づいて、Zhipu AIはコード生成ツールCodeGeeX2も更新しました。 Zhang Peng の共有トピックは「GLM-130B から ChatGLM へ」です。張鵬氏は、Zhipu AIが開発したGLMフレームワークを紹介しました。GLM事前トレーニングフレームワークは、GPTとBERTという2つの事前トレーニングフレームワークの利点を統合した自己回帰空欄補充法であり、単一項目の注意計算とシーケンス生成だけでなく、双方向の注意計算と回帰モデルも実現できます。 Zhipuは2022年8月にGLMをベースに、1300億のパラメータを持つ中国語・英語バイリンガル高密度モデルGLM-130Bをリリースした。新しいモデル アーキテクチャのおかげで、GLM は、数百万のパラメータやさらに少ないトレーニング ステップを使用した多くのベンチマークで、自然言語理解において BERT や T5 よりも優れたパフォーマンスを実現できます。 1000億規模の大規模言語モデルをトレーニングするのは簡単な作業ではありません。Zhipuチームは、頻繁かつランダムなハードウェア障害、トレーニングの安定性などの問題を含む、多くのエンジニアリングの問題とアルゴリズムの課題を解決しました。関連する詳細は、ICLR 2023の論文に掲載されています。 ジェイム・ティーヴァン - マイクロソフト文書から会話へ: LLM が仕事の未来をどう形作るかJaime は Microsoft の主任科学者兼テクニカル フェローであり、同社の中核製品における技術革新の推進を担当しています。彼女は、人々が時間を最大限に活用するためのよりスマートな方法を見つけることを提唱し、マイクロソフトの Future of Work イニシアチブを主導して、AI、ハイブリッド ワークなどが人々の仕事のやり方をどのように変えているのかを探っています。以前は、マイクロソフト CEO のサティア ナデラ氏の技術顧問を務め、マイクロソフト リサーチの生産性チームを率いていました。 さらに、Jaime は ACM フェローであり、ACM SIGIR および SIGCHI アカデミーのメンバーでもあります。彼女はTR35、BECA、カレン・スパーク・ジョーンズ賞も受賞しています。彼女はイェール大学で学士号を取得し、MITで人工知能の博士号を取得しました。彼女はワシントン大学の客員教授でもある。 今回彼女が共有するテーマは、「文書から会話へ:LLM が仕事の未来をどのように形作るか」です。 LLM の台頭により、今後の働き方は急速に変化し、知識は文書ではなく会話の中に含まれるようになると考えられます。 講演の中で、ジェイミー氏は、LLM が人々の状況や意図に合った自然言語による提案やフィードバックを生成することで、人々の生産性と創造性をどのように向上させることができるかについて説明しました。これを効果的に行うには、LLM はさまざまなソースから関連するコンテンツを回答の根拠として利用できる必要があります。大規模なモデルの価値を十分に実現するには、新しい会話パターンを学習する必要もあります。これは、対人コミュニケーションでうまく機能するパターンが LLM に最適であるとは限らないためです。 さらに、Jaime 氏は、生産環境における迅速なエンジニアリングの重要性について説明し、会話テンプレートを識別して推奨できることの価値を強調しました。これらの研究トピックをさらに深く掘り下げることで、レコメンデーション システム コミュニティは、新しい、より良い仕事の未来を創造する機会を得ることができます。 Google DeepMind デニー・ジョウ言語モデルに推論を教えるDenny Zhou 氏は Google DeepMind の主任科学者兼研究責任者であり、同社で推論チームを設立し、現在はそのチームを率いています。彼の主な研究関心は、人間のような推論能力を実現するための大規模言語モデルの構築と指導です。彼が率いるチームは、思考連鎖プロンプト、自己矛盾のないデコード、最小から最大までのプロンプト、命令チューニング (FLAN2)、LLM セルフチューニングなど、大規模言語モデルのさまざまな創発特性を開発しました。デニー・ゾウが 2022 Google Research Tech Impact Award を受賞しました。 彼の共有のトピックは「推論を学ぶための言語モデルの指導」でした。過去数十年にわたり、機械学習コミュニティは、半教師あり学習、メタ学習、能動学習、転移学習など、学習効率を高めるための多数のデータ駆動型手法を開発してきました。しかし、これらの方法はすべて、現実世界の NLP タスクには特に効果的ではないことが示されており、機械学習の大きな欠陥、つまり推論の欠如が露呈しています。人々は、統計に頼るのではなく推論する能力のおかげで、ごく少数の例からでも学ぶことができることがよくあります。 そこで、この共有では、Denny Zhou 氏が Google DeepMind が主導する LLM 推論作業について説明しました。彼らが開発した手法は、人間の知能と機械学習のギャップを大幅に縮め、わずかな注釈付きの例とトレーニングなしで新しい SOTA を達成しました。 Google CEOのサンダー・ピチャイ氏は、2021年のGoogle I/Oカンファレンスでこれらの取り組みを強調した。 メタ フェア ヴェダヌジ ゴスワミ ラマ 2: オープンベースと微調整されたチャットモデル 先月、最も強力なオープンソースの大規模モデルである Llama 2 がリリースされ、大規模モデルの競争環境が一変しました。 Llama 2 モデルはリリース後すぐに、コミュニティで最も広く使用され、ダウンロードされたオープン ソース モデルの 1 つになりました。 Vedanuj は Llama 2 シリーズのモデルのトレーニングに携わっており、現在は Meta AI の LLM 研究チームの研究エンジニアとして、LLM の事前トレーニングとスケーリング技術に重点を置いて働いています。 ヴェダヌジ氏は、「No Language Left Behind」や「Universal Speech Translation for Unwritten Languages」などの翻訳プロジェクトの研究リーダーも務めており、FAIR でのマルチモーダル研究にも携わり、FLAVA や MMF などの著名なプロジェクトを率いています。 今回、共有するトピックは「Llama 2: オープンな基盤とチャット モデルの微調整」です。 7月18日に発売されたばかりのLlama 2モデルシリーズには、70億、130億、700億の3つのパラメータバリエーションがあり、オープンソースであり、直接商品化できるため、業界全体の注目を集めています。 事前トレーニング レベルでは、Llama 2 モデル シリーズは、Llama 1 の論文で説明されている事前トレーニング方法に基づいており、最適化された自己回帰トランスフォーマーを使用し、パフォーマンスを向上させるためにいくつかの変更を加えています。 Llama 1 と比較して、Llama 2 はトレーニング データが 40% 多く、コンテキストの長さが 2 倍になり、グループ化されたクエリ アテンション メカニズムを使用します。具体的には、Llama 2 の事前トレーニング済みモデルは 2 兆個のトークンでトレーニングされ、微調整された Chat モデルは 100 万個の人間がラベル付けしたデータでトレーニングされます。 トレーニング ハードウェアに関しては、Meta は Research Super Cluster (RSC) と社内のプロダクション クラスターでモデルを事前トレーニングしました。どちらのクラスターも NVIDIA A100 を使用しました。 Meta の評価では、複数のテスト結果から、推論、エンコード、熟練度、知識テストなど、多くの外部ベンチマークにおいて Llama 2 が他のオープンソース言語モデルよりも優れていることが示されました。 もちろん、今日の大型モデルにとって、「安全性」は「性能」に劣らず重要な指標です。 Llama 2 の開発中、Meta はセキュリティを評価するために 3 つの共通ベンチマークを使用しました。
今日、大型模型の技術は「日々」急速に発展しています。人々が目覚めると、最新の技術の成果によってもたらされた途方もない変化を目にするかもしれません。 このような時代を迎えて、学界、産業界、社会はどのようなチャンスに直面しているのでしょうか。一方、ビッグモデルを生産や生活に深く応用することは、この時代にどのような課題をもたらすのでしょうか?これらはすべて熟考する価値のある質問です。 イベントの最後に行われた円卓討論会では、Google DeepMind、Microsoft、Intel、ミシガン大学の研究者が、ビッグモデルの時代が直面するパラダイムシフトについて議論しました。 大型モデルをめぐって各メーカーが熾烈な競争を繰り広げてきた半年以上の間、GPT-4、Llama2、ChatGLM、PaLM2などのモデルの開発チームが一堂に会して議論する様子を見る機会はほとんどありませんでした。特に今回の大型模型公開日では、ChatGLMが中国からの唯一の代表となり、中国の大型模型技術力を世界に示しました。 ChatGLMを立ち上げたZhipu AIは、今回のKDDの最高レベルのダイヤモンドスポンサーでもあります。これは、学術エコシステムにおける国内メーカーの積極性と貢献を示しています。 現在、私たちはまだビッグモデルの能力を模索している最中であり、学術界も人工知能の限界を突破するために、あらゆる関係者間の交流と協力を共同で促進する「ビッグモデル公開日」をさらに開催する必要があります。 |
>>: GPT-4 はタイプ I の性格を持っていることが判明しました。ビッグモデルMBTIテストがByteから登場
ビッグデータ、自動化、ニューラルネットワークが日常語となっている世界では、人工知能とその背後にあるプ...
2020年銀川国際スマートシティ博覧会において、銀川市政府は百度に、同市初のインテリジェントコネク...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[349567]] [51CTO.com クイック翻訳] ニューラル ネットワークは、一連のデータ...
中国は世界最大の人工知能研究者の供給国となった。米国の人工知能分野のトップ研究者のほぼ3分の1は中国...
トム・ペック氏がCOVID-19パンデミックの真っ只中にシスコに入社したとき、彼の主な目標は世界最大...
[[429833]]ショッピングモールは顔認識カメラをオンにし、情報は「気付かれずに」収集されます...
スティーブ・ジョブズの「電話の再発明」は携帯電話を再定義しただけでなく、世界を変え、人類をモバイルイ...
AIのリスクの問題に関しては、さまざまな有力者がさまざまな意見を持っています。 AI研究室に研究を即...
機械学習の概念分析機械学習の概念は、アルゴリズムとニューラル ネットワーク モデルを使用して学習し、...
1. 概要: 一般的 = 非効率的汎用プロセッサであるCPU(中央処理装置)は、コンピュータに欠か...
今日は対称暗号化アルゴリズムの重要な問題についてお話ししましょう。暗号化の基本的な概念に精通していな...