大規模言語モデルとAIコードジェネレータの台頭

翻訳者 |李睿

レビュー | Chonglou

この記事の著者であるMartin Heller は、 Web および Windows プログラミングコンサルタントであり、業界メディア InfoWorld の寄稿編集者およびコメンテーターでもあります。ヘラー氏は、2021年11月にGitHub Copilotについて書いたとき、Copilotは当時リリースされた数少ないAIコード生成技術の1つだったと述べています。彼は GitHub Copilot を Visual Studio Code 拡張機能としてテストしました。当時、Copilot は必ずしも適切で正しい、あるいは実行可能なコードを生成できるわけではありませんでしたが、それでもいくつかの用途がありました。 Copilot (および機械学習を使用する他のコードジェネレーター) の大きな利点は、ユーザーからのフィードバックを取り入れ、新しいコードサンプルをトレーニングコーパスに取り込むことで、時間の経過とともに改善するように設計されていることです。

2023 年 5 月現在、Visual Studio Code だけでも数百の「AI」または「コード生成」拡張機能が利用可能です。これらのうちいくつかはコーディング中に時間を節約できるかもしれませんが、チェック、テスト、デバッグを行わずに生成されたコードを信頼することはできません。

図 1: 市場には「コード生成」や「人工知能」を謳う Visual Studio Code 拡張機能が何百もありますが、実際に機械学習に基づいてコードを生成するのはごく一部です。

この分野における有望な開発は、ユニットテストを自動的に生成できるツールが利用可能になったことです。ユニットテストの生成は、汎用コードの生成よりもはるかに扱いやすい問題です。実際、単純なパターンを使用して実行できますが、ユーザーは生成されたテストを検査して実行し、意味があるかどうかを判断する必要があります。

この記事では、言語モデルの歴史を簡単に紹介した後、現在テキスト生成やコード生成に使用されている、OpenAI の GPT ファミリーや Google の LaMDA や PaLM などの最先端の大規模言語モデル (LLM) について考察します。最後に、 Amazon CodeWhisperer、Google Bard、GitHub Copilot X など10 個のコード生成ツールについて簡単に紹介します。

人工知能テキスト生成モデルの開発の簡単な歴史

言語モデルは、1913 年にアンドレイ・マルコフによって提案されたマルコフ連鎖にまで遡ることができ、マルコフモデルの特殊なケースです。マルコフ氏は、ロシア語、特にプーシキンの韻文小説『エフゲニー・オネーギン』では、文字が現れる確率は前の文字に依存し、一般的に子音と母音が交互に現れる傾向があると指摘している。マルコフ法はその後、語彙集、他の言語、その他の言語アプリケーションに一般化されました。

1948 年、クロード・シャノンはコミュニケーション理論においてマルコフの理論を拡張し、1985 年には IBM のフレッド・ジェリネックとロバート・マーサーがマルコフの理論を再び拡張し、相互検証 (彼らは削除推定と呼んだ) に基づく言語モデルを作成し、それをリアルタイムの大語彙音声認識に適用しました。本質的に、統計言語モデルは単語のシーケンスに確率を割り当てます。

言語モデルの動作をすぐに確認するには、Google 検索またはスマートフォンのメッセージングアプリにいくつかの単語を入力し、オートコンプリートオプションが表示されるようにします。

2000 年に、Yoshua Bengio らはニューラル確率言語モデルに関する論文を発表しました。この論文では、統計言語モデルにおける確率をニューラルネットワークに置き換え、次元の呪いを回避し、以前の単語に基づく単語予測を平滑化トライグラムモデル (当時の最先端技術) よりも 20% ～ 35% 向上させました。言語のフィードフォワード、自己回帰、ニューラルネットワークモデルのアイデアは今日でも使用されていますが、これらのモデルには現在数十億のパラメーターがあり、広範なコーパスでトレーニングされているため、「大規模言語モデル」という用語が使用されています。

ご覧のとおり、時間の経過とともに言語モデルはパフォーマンスを向上させるためにサイズが大きくなってきています。ただし、これにはコストがかかります。 2021年に発表された「ランダムなオウムの危険性：言語モデルは大きすぎるのか？」という論文の著者であるエミリー・ベンダー氏とティムニット・ゲブル氏は、人々がこの傾向に陥りすぎているのではないかと疑問を呈している。彼らは、とりわけ、人々はまず環境と経済のコストを検討し、すべてをウェブから取り込むのではなく、データセットを照合して注意深く文書化することにリソースを投資すべきだと提案しています。

ゲブル氏とベンダー氏は、グーグルの人工知能の倫理的使用に問題があると非難した後、辞任した。ベンダー氏は現在ワシントン大学に在籍しており、ゲブル氏は分散人工知能研究所を設立した。

テキスト生成のための大規模言語モデル

大規模言語モデルの最近の爆発的な増加は、Google Brain プロジェクトと Google Research の Ashish Vaswani らによる 2017 年の論文「Attention is All You Need」によって引き起こされました。この論文では、「アテンションメカニズムに完全に基づいており、再帰と畳み込みを完全に排除した、Transformer と呼ばれる新しいシンプルなネットワークアーキテクチャ」が紹介されています。Transformer モデルは、再帰モデルや畳み込みモデルよりもシンプルで優れています。トレーニングに必要な時間も大幅に短縮されます。

エルモ

ELMo は、2018 年に AllenNLP によって導入された、深く文脈化された単語表現です (ELMo の論文を参照)。これは、単語の使用法の複雑な特徴 (構文や意味論など) と、これらの使用法が異なる言語コンテキストでどのように変化するか (多義性のモデル化など) の両方をモデル化します。元のモデルには 9,360 万のパラメータがあり、10 億語ベンチマークでトレーニングされました。

バート

BERT は、Google AI Language の 2018 年の言語モデルであり、同社の Transformer (2017) ニューラルネットワークアーキテクチャに基づいています (BERT の論文を参照)。 BERT は、すべてのレイヤーの左側と右側のシーンを共同で条件付けすることにより、ラベルのないテキストから双方向の深層表現を事前トレーニングすることを目的としています。元の論文で使用された 2 つのモデルのサイズは、それぞれ 1 億パラメータと 3 億 4 千万パラメータです。 BERT はマスク言語モデリング (MLM) を使用しており、トレーニングではトークンの約 15% が「破損」します。英語版ウィキペディアとトロントブックコーパスに基づいてトレーニングされています。

T5

Google の 2020 Text-to-Text Transfer Transformer (T5) モデル (T5 論文を参照) は、Colossal Clean Crawled Corpus (C4) と呼ばれる新しいオープンソースの事前トレーニングデータセットを使用して、GPT、ULMFiT、ELMo、BERT およびその後継からの最良の転移学習手法に基づいて新しいモデルを合成します。 C4 は、CommonCrawl データセットに基づく 800 GB のデータセットです。 T5 は、すべての自然言語処理タスクを統一されたテキストからテキストへの形式に再定式化します。この形式では、入力と出力は常にテキスト文字列であり、BERT スタイルのモデルはクラスラベルまたは入力の範囲のみを出力します。基本的な T5 モデルには合計で約 2 億 2000 万個のパラメータがあります。

GPTファミリー

OpenAI は人工知能の研究と展開を行う企業であり、その使命は「人工汎用知能 (AGI) が人類に利益をもたらすようにすること」です。もちろん、OpenAI はまだ汎用人工知能 (AGI) を実現していません。機械学習の先駆者であるMeta-FAIRのヤン・ルカン氏など、一部のAI研究者は、OpenAIの現在の汎用人工知能（AGI）へのアプローチは行き詰まりだと考えている。

OpenAI は GPT 言語モデルファミリを開発しました。これは OpenAI API および Microsoft の Azure OpenAI サービスを通じて利用できます。 GPT ファミリー全体が Google の 2017 Transformer ニューラルネットワークアーキテクチャに基づいていることに注意することが重要です。これは、Google が Transformer をオープンソース化したため合法です。

GPT (Generative Pre-trained Transformer) は、2018 年に OpenAI によって開発された、約 1 億 1,700 万個のパラメータを使用するモデルです (GPT の論文を参照)。 GPT は、Toronto Book Corpus で事前トレーニングされ、因果言語モデリング (CLM) の目的でトレーニングされた単方向トランスフォーマーです。つまり、シーケンス内の次のトークンを予測するようにトレーニングされています。

GPT-2 は、800 万の Web ページ、つまり約 40 GB のテキストのデータセットでトレーニングされた、15 億のパラメーターを備えた 2019 年の GPT の直接拡張です。 OpenAIは当初、GPT-2が「優秀すぎる」ため「フェイクニュース」を生み出すとしてその使用を制限していた。 GPT-3 のリリースにより潜在的な社会問題がさらに深刻化したにもかかわらず、同社は最終的に撤退した。

GPT-3 は、2020 年に開発された 1,750 億のパラメータを持つ自己回帰言語モデルであり、Common Crawl、WebText2、Books1、Books2、および英語版 Wikipedia のフィルタリングされたバージョンの組み合わせでトレーニングされています (GPT-3 の論文を参照)。 GPT-3 で使用されるニューラルネットワークは、GPT-2 で使用されるものと似ていますが、いくつかのブロックが追加されています。

GPT-3 の最大の欠点は、「幻覚」を起こしやすいこと、つまり、事実を識別する根拠なしに事実を捏造してしまうことです。 GPT-3.5 と GPT-4 も、程度は低いものの、同じ問題を抱えています。

CODEX は、 2021 年にリリースされたGPT-3 の新世代モデルであり、5,400 万のオープンソース GitHub リポジトリからのコード生成向けに微調整されています。これは GitHub Copilot で使用されるモデルであり、次のセクションで説明します。

GPT-3.5 は、2022 年に GPT-3 と CODEX が更新されたバージョンのセットです。 GPT-3.5-turbo モデルはチャット用に最適化されていますが、従来の完了タスクにも適用できます。

GPT-4 は 2023 年の大規模なマルチモーダルモデル (画像とテキストの入力を受け入れ、テキストを出力する) であり、OpenAI はさまざまな専門的および学術的なベンチマークで人間レベルのパフォーマンスを発揮すると主張しています。 GPT-4 は、統一司法試験、LSAT、GRE、いくつかの AP 科目試験など、多くの模擬試験で GPT-3.5 を上回ります。

OpenAI が GPT-4 のトレーニング方法を説明しなかったことは注目に値します。同社は、これは競争上の理由からだと述べているが、これは、Microsoft（OpenAIに資金提供している）とGoogleの競争関係を考えれば、ある程度は納得できる。しかし、トレーニングコーパス内のバイアスがわからないということは、モデル内のバイアスに気付いていないことを意味します。

Emily Bender 氏の GPT-4 に関する意見 (2023 年 3 月 16 日に Mastodon に投稿) は、「OpenAI がトレーニングデータやモデルアーキテクチャなどをオープンにしない限り、GPT-4 は有害なゴミとみなされるべきだ」というものです。

ChatGPT と BingGPT は、もともと GPT-3.5-turbo をベースにしたチャットボットで、2023 年 3 月に GPT-4 を使用するようにアップグレードされました。現在、GPT-4 に基づく ChatGPT バージョンを使用している場合は、ChatGPTPlus に加入する必要があります。 GPT-3.5 に基づく標準 ChatGPT は、2021 年 9 月時点のデータでトレーニングされています。ユーザーが Microsoft Edge ブラウザでアクセスできる BingGPT も、2021 年の障害のデータに基づいてトレーニングされていますが、(質問すると)「Web 上の新しい情報を使用して継続的に学習し、知識を更新しています」と返答します。

図2 BingGPTは画像の右側に言語モデルとトレーニングデータを示しています

2023年3月初旬、香港科技大学人工知能研究センターのパスカレ・フォン氏がChatGPTの評価に関するプレゼンテーションを行いました。

Google の 2021 年の「画期的な」会話テクノロジーである LaMDA (会話アプリケーション向け言語モデル) は、2017 年に会話用にトレーニングされた Transformer モデルであり、応答の感度と特異性が大幅に向上するように微調整されています。 LaMDA の強みの 1 つは、人間の会話でよくある話題の変化に対処できることです。

LaMDA のバージョンは、Google の会話型 AI サービスである Bard に搭載されています。『Bard』は2023年3月21日に発表され、2023年5月10日に一般発売されます。コード生成機能については以下で説明します。

パルム

PaLM (Pathways Language Model) は、Google Research の 2022 年の高密度デコーダーのみの Transformer モデルであり、5,400 億のパラメーターを持ち、Pathways システムを使用してトレーニングされています (PaLM の論文を参照)。 PaLM は、高品質の Web ドキュメント、書籍、Wikipedia、会話、GitHub コードで構成される英語と多言語のデータセットの組み合わせを使用してトレーニングされます。

Google は PaLM 用の「ロスレス」語彙も作成しました。これは、すべての空白 (特にコードにとって重要) を保持し、語彙外の Unicode 文字をバイトに分割し、数字を桁ごとに 1 つのトークンに分割します。 PaLM Coder は、Python コードデータセット用にのみ微調整された PaLM 540B のバージョンです。

パルムE

PaLM-E は、2023 年にリリースされた Google の「具現化された」（ロボット向け）マルチモーダル言語モデルです。研究者たちは、強力な大規模言語モデル PaLM から始めて、ロボットエージェントにセンサーデータを補足することでそれを具体化しました (PaLM-E の「E」)。 PaLM-E は強力な視覚および言語モデルでもあります。 PaLM に加えて、ViT-22B ビジョンモデルも統合されています。

ラマ

LLaMA (Large Language Model Meta-AI) は、2023 年 2 月に Meta AI (別名 Meta-FAIR) によってリリースされた、650 億のパラメータを持つ「オリジナル」の大規模言語モデルです。 Meta 氏は、「LLaMA のような小さな基本モデルを大規模な言語モデル空間でトレーニングすることは、新しい手法をテストしたり、他の人の作業を検証したり、新しいユースケースを探ったりするのに必要な計算能力とリソースが少なくて済むため望ましいことです。基本モデルは大量のラベルなしデータでトレーニングされるため、さまざまなタスクの微調整に適しています。」と述べています。

LLaMA は複数のサイズでリリースされており、モデルの構築方法を詳しく説明したモデルカードも付属しています。 Meta-FAIR の Yann LeCun 氏は、当初はユーザーがチェックポイントとタグ付けをリクエストする必要があったが、誰かがリクエストを送信してダウンロード可能なトレントを 4chan に投稿することでモデルを正しく理解したため、現在はそれらがリリースされていると述べた。

特殊なコード生成製品

ChatGPT や Bard などの一部の大規模言語モデルはリリース用のコードを生成できますが、一部のコードを微調整する場合は、明白な著作権侵害を避けるために、通常は無料のオープンソースソフトウェアから生成されます。これにより、 GitHub、Microsoft（GitHubの所有者）、OpenAIに対して、GitHub Copilot製品とOpenAI GPT Codexモデルをめぐって2022年に提起された集団訴訟の主張など、「オープンソースソフトウェアの著作権侵害」に関する懸念が依然として生じています。

公開されているコードでトレーニングされた AI モデルを使用することに加えて、一部のコード生成ツールは Stack Overflow などのコード共有サイトの検索に依存していることに注意することが重要です。

Amazon コードウィスパラー

Amazon CodeWhisperer は Visual Studio Code および JetBrains IDE と統合され、コメントに応じてコードの提案を生成したり、既存のコードに基づいてコード補完を行ったり、コードをスキャンしてセキュリティの問題を検出したりできます。ユーザーは、AWS Cloud9 および AWS Lambda で使用するために CodeWhisperer をアクティブ化することもできます。

CodeWhisperer は、Python、Java、JavaScript、TypeScript、C# プログラミング言語のほか、10 種類のプログラミング言語もサポートしています。個人開発者の場合は無料、プロフェッショナルチームの場合はユーザーあたり月額 19 ドルかかります。

Heller 氏はCodeWhisperer を使用して次の Python コードを作成し、レビュー、テスト、デバッグを行ったところ、良好な結果が得られました。

図 3. Heller はAmazon CodeWhisperer を使用してコードを生成します。ファイルの先頭にコメントが入力されており、残りのほとんどは CodeWhisperer が処理します。ヘラー氏はいくつかのオプションからコードを選択し、前のオプションから未使用のインポートステートメントを削除する必要がありました。

バード

バードは2023年4月21日にプログラミングのサポートを発表しました。発表によれば、C++、Go、Java、JavaScript、TypeScript、Python など 20 以上のプログラミング言語がサポートされているとのことです。簡単なテストとして、ヘラー氏はバード氏に「現在の日付と時刻を返す Go 関数を書いてください」と依頼しました。するとすぐに関数ができました。

図 4. Bard は、「現在の日付と時刻を返す Go 関数を記述してください。」というプロンプトから、正しい Go 言語関数、関数の使用例、および関数の説明を生成します。関数をコピーしてコードをテストするためのアイコンに注意してください

Bard は関数を書くだけでなく、関数を説明し、関数を呼び出す例も生成します。

コードT5

CodeT5 は、Salesforce AI Research による 2021 年のコード固有の統合事前トレーニング済みエンコーダー/デコーダートランスフォーマーモデルです。これは、CodeSearchNet データセットと BigQuery 用の C/ C # コードを微調整した 2020 Google T5 モデルアーキテクチャに基づいています。 CodeT5 の公式 PyTorch 実装は GitHub にあり、 Hugging Faceに 2 つのチェックポイントがあり、GitHub README にリンクがあります。

GitHub コパイロット

ヘラー氏は、2021 年 11 月に GitHub Copilot のプレリリース版をレビューしたところ、必ずしも優れた、正しい、あるいは実行可能なコードが生成されるわけではないものの、それでもある程度は有用であることがわかりました。 Copilot は OpenAI Codex をベースにしており、OpenAI Codex は GPT-3 をベースにしており、5,400 万のオープンソース GitHub リポジトリでコードを生成するように微調整されています。 GitHub Copilot の現在の料金は、ユーザーが無料版の対象でない限り、月額 10 ドルまたは年額 100 ドルです。

Heller 氏は、Visual Studio Code での Copilot の動作を気に入っています。基本的に、関数の最初の行、または関数を説明するコメントを記述する必要があります。その後、Copilot は、そのまま使用することも、編集することも、または編集せずに使用できる関数の最大 10 バージョンを生成します。 Heller 氏が上で指摘しているように、Copilot によって生成されたコードは、以下の例の 8 行目と 9 行目のコードコメントのように、実際に幻覚を起こしやすいため、鵜呑みにしないほうがよいでしょう。

図 5 のコードは GitHub Copilot によって生成されました。行の先頭と一連のタブ文字を入力すると、行 8 と 9 が生成されます。 Heller は10 行目と 11 行目の冒頭を入力し、Copilot は 11 行目を完了しました。 8 行目と 9 行目に、期待される結果値に関して誤ったコメントが生成されていることに注意してください。

GitHub コパイロットX

現在テクニカルプレビュー段階の GitHub Copilot X は GPT-4 をベースにしています。チャットとターミナルのインターフェース、ユニットテストを生成する機能、プルリクエストの説明を生成する機能、ドキュメントから説明を抽出する機能など、オリジナルの Copilot を「アップグレード」します。

GitHub Copilot X は、オリジナルの GitHub Copilot を大幅に改良したもので、人間の助けをほとんど借りずに正しい関数とテストセットを生成できる場合もあります。まだ間違いを犯したり幻覚を見たりしますが、前作ほどではありません。参考までに、 Hellerが書いたオリジナルの Copilot を以下に示します。

図6ヘラー氏は、上部にコメントを入力し、EnterキーとTabキーを4～5回押すだけで、GitHub Copilot Xでほぼ正しい関数と適切にパラメータ化されたテストセットを生成できました。

IntelliSense と IntelliCode

Microsoft IntelliSense は、言語セマンティクスを使用して短いコード補完のオプションメニューを提供する Visual Studio および Visual Studio Code の組み込み機能です。一般的に、ユーザーが必要な API またはメソッド呼び出しを見つけるのに役立ちますが、多くの選択肢が提示されることがよくあります。

IntelliCode は、ローカルマシンで実行される人工知能を使用して、変数名、関数、記述するコードの種類などのコードシナリオを検出し、最適な提案を提供し、場合によっては完全な行補完も提供する、IntelliSense の拡張機能です。 IntelliCode は、重複したコードをクリーンアップし、一般的なプログラミングタスクに対するクイックアクションを推奨するのにも役立ちます。

IntelliCode は、Visual Studio 2022 では C#、C++、Java、SQL、XAML で動作し、Visual Studio Code では TypeScript、JavaScript、Python で動作します。

凧

Kite は、2014 年から 2021 年にかけて、人工知能を使用して開発者のコード作成を支援する初期の試みでした。 50 万人以上の開発者を惹きつけたにもかかわらず、収益はまったく生まれませんでした。 Kiteco リポジトリにはソースコードのほとんどが含まれていますが、一部のプライベートビットは XXXXX に置き換えられているため、一部のコードは実行されません。

ポリコーダー

PolyCoder は、カーネギーメロン大学の 2022,270 億パラメータのコード生成用オープンソース大規模言語モデルです (論文を参照)。これは GPT-2 モデルアーキテクチャに基づいており、12 のプログラミング言語で 249 GB のコードを使用してトレーニングされました。 C プログラミング言語では、PolyCoder は Codex を含むすべてのモデルよりも優れています。

リプリットゴーストライター

Replit Ghostwriter は 2022 年のハロウィーンにリリースされ、コード補完、コード解釈、コード変換、コード生成、ダクトテープデバッグによるエラー検出という 5 つの機能を月額 10 ドル (ユーザーが使用する「サイクル」の数に応じて多少異なります) で提供しています。 Replit オンラインエディターと統合され、Python、Ruby、JavaScript、TypeScript、HTML、CSS、Go、Lisp、Haskell、Bash、C、C++、Rust、Java、JSON をサポートします。

Replit によると、Ghostwriter は「公開されているコードでトレーニングされ、Replit によって微調整された大規模言語モデルによって生成された結果を返します」。Replit は Ghostwriter に使用された大規模言語モデルやトレーニングコーパスを指定していないため、Emily Bender が GPT-4 に対して行ったのと同じ非難になります。Replit がトレーニングデータ、モデルアーキテクチャなどを公開しない限り、Ghostwriter は有害なゴミであると想定する必要があります。これにより、Replit は GitHub Copilot と同様に「オープンソースソフトウェアの著作権侵害」の非難にさらされることになります。

タブニン

イスラエルのテルアビブに拠点を置く TabnineのTabnine は、IntelliSense の強化版のようなものであり、ユーザー独自のコードコーパスまたはオープンソースコードでトレーニングするオプションを備えています。エディターまたは IDE でフルラインおよびフル機能のコード補完が可能になり、Visual Studiocode や IntelliJ から Emacs や Vim まで 20 種類のツールがサポートされます。

選択したプランに応じて、Tabnine は、ライセンスされたオープンソースコードでトレーニングされた一般的な AI モデル、すべてのプログラミング言語に最適化された「一致する技術スタックに特化した」生成 AI モデルのセット、または独自のリポジトリでトレーニングされたプライベートコードモデルを提供します。

Tabnine の無料スタータープランでは、基本的なコード補完機能のみが提供されます。 Pro プランには、フルラインと完全に機能するコードが付属しており、ユーザーあたり月額 12 ドルです。 Tabnine はモデルアーキテクチャやトレーニングコーパスを公開していません。したがって、エミリー・ベンダーの原則によれば、ユーザーは生成されるコードについて最悪の事態を想定する必要があります。

大規模な言語モデルは、コードコーパスでトレーニングされているかどうかに関係なく、コードを生成または完成させるために使用されることがあります。コードでトレーニングされた言語モデルは、空白の重要性をより意識する傾向があります。また、OpenAI Codex や Tabnine などのコード生成製品は、より一般的な言語モデルよりもプログラミングエディターと適切に統合されることが多いです。

AI コードジェネレーターは、時間の経過と使用によって改善されることが期待されます。 GitHub Copilot X はオリジナルの Copilot よりも優れており、次の Copilot はさらに優れたものになると信じています。ただし、AI によって生成されたあらゆる種類のコードが正しい、または有効である、あるいはコンパイルされて実行されるとは決して想定できません。 AI によって生成されたコードは、未知のプログラマーからのプルリクエストのように扱う必要があります。つまり、アプリケーションの一部として使用される前に、レビュー、テスト、デバッグを行う必要があります。

原題: LLM と AI コードジェネレーターの台頭、著者: Martin Heller

<<: リチウム電池の防爆結果がネイチャー誌の表紙に登場、UCLAの中国チームが制作

>>: 生成AI技術：医師の燃え尽き症候群を軽減する新たな希望