大規模言語モデル (LLM) は、さまざまな自然言語タスクで優れたパフォーマンスを発揮しています。ただし、大規模パラメータ モデルのトレーニングと推論には大量のコンピューティング リソースが必要となり、コストが高くなるため、専門分野で大規模言語モデルを適用するには依然として多くの実用的な問題が残っています。そのため、BIT チームは、データとモデルの利点を最大限に活用し、特定の分野にさらに貢献し、下流のタスクのトレーニングと推論のコストを削減することを目指して、軽量モデルから始めました。 10月24日、北京理工大学自然言語処理チームは、大規模モデルの開発過程で蓄積された経験を全面的に導入し、データ構築、モデルアーキテクチャ、評価、アプリケーションプロセスの各詳細ステップを網羅したバイリンガル軽量大規模言語モデル「Ming De LLM - MindLLM」シリーズをリリースした。 MindLLM はゼロからトレーニングされており、1.3B と 3B の 2 つのバージョンがあり、特定の公開ベンチマークで他のオープン ソースの大規模モデルのパフォーマンスと一貫して同等かそれを上回ります。 MindLLM は、小型モデルの機能を効果的に強化するために、小型モデルに合わせた革新的な命令調整フレームワークも導入しています。さらに、MindLLM は、法律や金融などの特定の垂直分野へのアプリケーションにおいても優れたドメイン適応性を備えています。
MindLLMのハイライト
データ関連データ処理英語と中国語の両方のトレーニングデータを使用します。英語のデータは Pile データセットから取得され、さらに処理されます。中国語データには、Wudao、CBooks などのオープンソースのトレーニング データと、インターネットからクロールしたデータが含まれています。データの品質を保証するために、特に Web からクロールされたデータに対しては、厳格なデータ処理方法を採用しました。 当社が使用するデータ処理方法には、以下の側面が含まれます。
最終的に、次のデータを取得しました。 スケーリングの法則ディープラーニングや大規模言語モデルのトレーニングコストが増大する中で最適なパフォーマンスを確保するために、データ量とモデル容量の関係、つまりスケーリング則を調査しました。数十億のパラメータを持つ大規模な言語モデルのトレーニングに進む前に、まずは小規模なモデルをトレーニングして、大規模なモデルをトレーニングするためのスケーリング ルールを確立します。当社のモデルのサイズは 1,000 万から 5 億のパラメータに及び、各モデルは最大 100 億のトークンを含むデータセットでトレーニングされます。これらのトレーニングでは、一貫したハイパーパラメータ設定と上記と同じデータセットが使用されました。さまざまなモデルの最終的な損失を分析することで、トレーニング FLOP (浮動小数点演算) から損失へのマッピングを確立できます。下の図に示すように、異なるサイズのモデルでは、飽和するために必要なトレーニング データの量が異なります。モデルのサイズが大きくなるにつれて、必要なトレーニング データも増加します。対象モデルの正確なデータ要件を満たすために、べき乗法則を使用してモデルの拡張法則を適合させ、トレーニングデータの量と3Bパラメータモデルの損失値を予測し、実際の結果(図の星印)と比較しました。 データミキシングとデータコースデータがモデルに与える影響は、主に次の 2 つの側面に及びます。(1) 混合比。これは、限られたトレーニング予算内で、さまざまなソースからのデータを組み合わせて特定のサイズのデータセットを構築する方法に関係します。(2) データ カリキュラム。これは、さまざまなソースからのデータの配置に関係し、モデル固有のスキルをトレーニングします。 各データ ソースを均等に縮小して、1500 万個のパラメータを持つモデルをトレーニングしました。下の図に示すように、データの種類によって学習効率やモデルの最終結果に異なる影響が及びます。たとえば、数学の問題データは最終損失が低く、学習速度が速いため、パターンがより明白で学習しやすいことがわかります。対照的に、情報量の多い書籍や多様な Web テキストからのデータには、より長い適応時間が必要です。技術関連のデータや百科事典など、分野が似ているデータの中には、損失が近いものもあります。 単一のデータから他のデータに一般化するモデルのパフォーマンスをさらに調査するために、単一のデータでトレーニングされたこれらのモデルを使用して他のデータでテストします。結果を次の図に示します。 異なるデータセットは、異なる程度の一般化能力を示します。たとえば、Web テキスト、百科事典、質問応答データでトレーニングされたモデルは、複数のデータ ソースに対して強力な一般化能力を示し、そのコンテンツにさまざまな分野の多様な情報が含まれていることを示しています。対照的に、学術論文データとコードデータでトレーニングされたモデルは、数学的能力は優れていますが、ドメイン特異性と固有の形式情報が原因で、一般化が弱いと考えられます。 さらに、さまざまなスキルとデータ タイプにわたってモデルのパフォーマンスのバランスをとるために、複数のデータ スケーリング調整を実行しました。私たちの実験に基づいて、最終的にデータ混合比率のいくつかの原則を決定しました。
混合比率に加えて、データカリキュラム(データのトレーニング順序)もモデルの学習能力に影響します。実験では、さまざまなソースからのデータによりモデルがさまざまなスキルを学習できることが示されており、スキル間の相関関係により、特定の学習順序を採用するとモデルが新しいスキルを学習するのに役立つ可能性があります。私たちの実験は、異種データの混合と言語転移学習がモデル機能に与える影響に焦点を当てています。私たちの実験では、不均一に混合されたデータにより、モデルは同じタイプのデータで継続的にトレーニングされることが示されました。これはコンテキスト内学習の状況に近くなり、したがって、少数ショット学習でのパフォーマンスが向上します。ただし、学習の不均一性により、後で重大な忘却が発生する可能性があります。さらに、言語転移学習はモデルがバイリンガル機能を獲得するのに役立ち、言語の調整によって全体的なパフォーマンスが向上する可能性がありますが、混合言語データを使用したトレーニングの方がモデル機能の分散と獲得につながると考えています。 MindLLMs モデルアーキテクチャMindLLM-1.3B は GPT Neo-1.3B と同じモデル アーキテクチャを使用しますが、MindLLM-3B ではこれに基づいていくつかの改善が追加されています。トレーニングの安定性とモデル機能を考慮して、回転位置エンコーディング (RoPE)、DeepNorm、RMS Norm、FlashAttention-2、GeGLU などの最適化演算子を使用します。 GPT Neo-1.3B に基づいて中国語の語彙を追加し、転移学習戦略を使用して MindLLM-1.3B のバイリンガル機能をトレーニングしました。 MindLLM-3B では、SentencePiece の BPE を使用してデータをトークン化し、Tokenizer の最終的な語彙サイズは 125,700 になります。 2 つの異なるバイリンガル トレーニング方法を通じて、一般的に実用的な事前トレーニング方法をいくつかまとめました。 事前トレーニング事前トレーニングの詳細バイリンガル モデル MindLLM をゼロからトレーニングするために、2 つの異なる戦略を使用しました。 MindLLM-3B では、中国語と英語の混合バイリンガル データで直接 800,000 ステップを事前トレーニングし、中国語と英語の両方の機能を学習しました。MindLLM-1.3B では、最初に英語のデータセットで 101,100 ステップを事前トレーニングし、次に中国語と英語の混合データを使用して 105,900 ステップをトレーニングしました。事前トレーニングの詳細は次のとおりです。 事前トレーニング評価小型モデルは大型モデルに勝てる モデルの中国語と英語の機能を評価するために、MMLU (5 ショット) と AGIEval (4 ショット) を使用してモデルの英語の機能を評価し、C-Eval (5 ショット) と CMMLU (4 ショット) を使用してモデルの中国語の機能を評価します。 AGIEval では、英語セクションで複数選択式の質問セクションを使用します。評価結果は次のとおりです。 英語のパフォーマンスに関しては、MindLLMs の平均レベルは、GPT-J-6B、MPT-7B、MOSS-Base-16B などのより大規模なモデルのそれを上回り、より大規模なモデル サイズとより多くの事前トレーニング データを持つ Falcon-7B に近いです。中国語能力の点では、MindLLM はオープンソースの LLM に匹敵するパフォーマンスを発揮します。 MindLLMs はまだトレーニングと強化の段階にあることは言及する価値があります。 さらに、中国語と英語のデータでトレーニングされたがデータが少ないMindLLM-1.3Bは、MMLUでGPT-Neo-1.3Bよりも優れたパフォーマンスを発揮することがわかりました。これは、異なる言語の能力に共通点があるため、バイリンガル学習によってもたらされた利点である可能性があると推測しています。詳細な実験と分析については、論文のセクション 4.4 を参照してください。 小型モデルは特定の機能に大きな可能性を秘めている 軽量モデルの場合、下流のタスクに適用する場合、関連する機能において優れたパフォーマンスを示すことのみが必要です。したがって、このセクションでは、特定の機能 (≤7B) の観点から、MindLLM とその他の軽量 LLM のパフォーマンスと影響要因を調査します。 私たちは主に、数学的能力、推論能力、バイリンガルアライメント能力という 3 つの観点からさまざまなモデルのパフォーマンスを評価します。これは、これら 3 つの能力が複雑であり、バイリンガル モデルの適用にとって比較的重要であるためです。 (1)数学 モデルの算術機能を評価するには、算術 (5 ショット) データセットを使用し、モデルの一般的な数学的機能を評価するには、GSM8K (4 ショット) と MATH (4 ショット) を使用します。評価結果は次のとおりです。 MindLLM-3B は数学的能力において平均スコア 16.01 を達成し、MOSS-Base-16B (15.71)、MPT-7B (13.42)、GPT-J-6B (13.15) を上回っていることがわかりました。さらに、MindLLM-1.3Bの平均数学レベルも、同じサイズのGPT-Neo-1.3Bを上回っています。上記の結果は、軽量モデルが大きな数学的可能性を秘めていること、また、特定の領域では小型モデルでも大型モデルよりも優れたパフォーマンスを発揮できる、あるいは同等のパフォーマンスを発揮できることを示しています。さらに、比較的数学的能力が優れているもの(平均スコア ≥ 15)は、MindLLM-3Bを除いて、すべてスコア 7B 前後のモデルであることがわかります。これは、数学的能力などの複雑な能力の完全な習得がモデルのサイズによって制限される可能性があることを示唆しており、この仮説はモデルのバイリンガル能力と推論能力の評価にもさらに反映されています。 (2)推論 モデルの言語推論能力 (5 ショット) を評価するために HellaSwag と WinoGrande を使用し、モデルの論理推論能力 (5 ショット) を評価するために LogiQA を使用し、モデルの知識推論能力 (5 ショット) を評価するために PubMedQA、PIQA、および MathQA を使用し、モデルの総合推論能力 (3 ショット) を評価するために BBH を使用します。具体的な評価結果は以下のとおりです。 まず、モデル能力が限られている状況では、バイリンガル能力によってもたらされる能力の向上と、言語学習によるモデル能力の消費とのバランスを取る必要があるかもしれない。言語学習はモデルの能力の一部を占めるため、推論能力などの複雑な機能を完全に獲得することは不可能になります。たとえば、MindLLM-1.3B は英語の MMLU 評価指標では GPT-Neo-1.3B よりも優れていますが、推論能力の平均レベルでは後者よりも劣っています (35.61 対 38.95)。ブルームズの推論能力は特に優れているわけではありませんでしたが、その後の評価ではバイリンガル能力が優れており、ある程度上記の見解を裏付けています。第二に、より大きな事前トレーニング データセットには、より多くの世界知識が含まれる可能性があり、これはモデルが推論タスクを実行するのに役立ちます。たとえば、Open-LLaMA-3B の推論パフォーマンスは、より大きなモデルのそれに匹敵し、その事前トレーニング データは 1 TB であり、同じサイズの他のモデルで使用される事前トレーニング データを上回っています。したがって、より小さなモデルでも、より大きなモデルと同等の推論機能のパフォーマンスを達成できる可能性があります。さらに、MOSS の推論レベルは、以前のコード データの学習からメリットを得てパフォーマンスが向上するようには見えないことがわかりました (MOSS は CodeGen でトレーニングを継続しました)。ただし、関連する研究では、コードはモデルの推論能力の向上に確かに役立つことが示されています。そのため、モデルの推論能力を強化するために、トレーニングにコード データを追加する方法とタイミングについては、さらに議論する価値があります。 (3)バイリンガル能力 Flores-101(8ショット)のzh-en部分を使用して、中国語と英語間のバイリンガルまたはマルチリンガルモデルのアライメント能力を評価します。評価用に、LLaMA-2-7B をベースに中国語領域に適応させたモデルである Chinese-LLaMA-2-7B を追加しました。結果は以下のようになります。 このモデルは英語から繁体字中国語への翻訳ではパフォーマンスが低いことがわかりました。主な原因は、繁体字中国語が事前トレーニング データに占める割合が小さいことです。さらに、中国語から英語、英語から中国語への双方向言語アライメントでは、Blooms と MindLLM-3B のみが優れたパフォーマンスを発揮し、LLaMA-2-7B と MOSS-Base-16B がそれに続きました。ただし、LLaMA-7B と Open-LLaMA-7B は中国語を英語に合わせることしかできません。モデルの事前トレーニングデータを組み合わせると、Blooms と MindLLM-3B の事前トレーニングデータでは中国語と英語の比率が比較的バランスが取れているのに対し、LLaMA-2-7B では中国語データの割合が英語よりもはるかに低く、LLaMA-7B と Open-LLaMA-7B の事前トレーニングデータでは中国語データの割合がさらに低いことがわかります。 したがって、2 つの結論があります。1 つは、モデルが特定の言語で大量のトレーニングを行うことで言語表現を学習できると同時に、少量の別の言語を混ぜることで、LLaMA-7B や Open-LLaMA-7B のパフォーマンスのような一方向アライメントを理解して実行できるということです。次に、より優れたバイリンガルまたはマルチリンガルのアライメント機能を取得する必要がある場合は、Blooms や MindLLM-3B などの事前トレーニングの開始時に、バイリンガルまたはマルチリンガルのデータの比率をよりバランスよくする必要があります。さらに、MOSS-Base-16B と Chinese-LLaMA-2-7B は中国語と英語のデータの比率が適切であるものの、バイリンガル アライメントがまだ示されていないことがわかりました。モデルがすでにこの時点で多くの知識を持っているため、転送トレーニング中にバイリンガル アライメント機能を追加することは困難であり、容量が小さいと競合が発生するというのが私たちの仮説です。これは、容量が小さく、初期の単一言語トレーニングからのデータが少ない MindLLM-1.3B が、バイリンガル言語をアラインメントする能力をまだ獲得していない理由も説明しています。 Baichuan2-7Bは他の面でも優れているため、より大きな容量を占有し、より優れた双方向アライメント機能を学習できない可能性があります。 (4)まとめ 事前トレーニング段階の結果を評価すると、次の 2 つの結論が得られます。
さらに、この論文では、均一なデータ分布を維持することがモデルの事前トレーニングのパフォーマンスに与える影響も比較しています。実験結果によると、コース学習に似たデータ構築方法は、初期段階でトレーニングされたモデルと均一に混合されたデータ構築方法に匹敵するパフォーマンスを発揮する可能性がありますが、最終的には壊滅的な忘却が発生し、パフォーマンスが突然低下する可能性があります。後者はより一貫して安定して機能し、取得された事前トレーニングデータの知識はより包括的であり、これも上記の2番目の結論を裏付けています。さらに、カリキュラム学習に似たデータ構築方法により、モデルのコンテキスト学習機能の強化につながるデータ分布がさらに生成される可能性があることもわかりました。詳細については、論文のセクション 4.5 を参照してください。 指示の微調整軽量モデル上のさまざまなカテゴリのデータセットに対する微調整命令のパフォーマンスを調査したいと考えています。次の表は、再構築した中国語データセット MingLi、公開データセット Tulu (英語)、中国語と英語のバイリンガルデータセット MOSS など、使用した命令の微調整データセットを示しています。 MindLLM の場合、命令の微調整のためのデータ品質はデータ量よりも重要です。 異なるデータ命令で微調整した後の C-Eval での MindLLM-1.3B および MindLLM-3B モデルのパフォーマンスは次のとおりです。実験結果から、慎重に選択された 50,000 命令の微調整データセットを使用してトレーニングされたモデルのパフォーマンスは、多様性が高くデータ量が多い命令の微調整データセットを使用してトレーニングされたモデルのパフォーマンスよりも高いことがわかりました。同様に、英語の指標 MMLU でも、モデルは同じパフォーマンスを示しています (詳細については、論文の表 14 を参照)。したがって、軽量モデルの場合、高品質の指示微調整データセットをどのように定義し、選別するかが非常に重要です。 データエントロピーに基づくデータスクリーニング戦略の微調整命令 高品質な命令チューニングデータを定義するにはどうすればよいでしょうか?一部の学者は、命令の微調整データの多様性が命令の微調整データセットのデータ品質を表すことができると提案しています。しかし、私たちの実験によれば、命令の微調整によるデータ エントロピーとデータ長が軽量モデルのパフォーマンスに大きな影響を与えることがわかりました。事前トレーニング済みモデル上の各データのクロスエントロピー損失をデータのデータエントロピーとして定義し、K-Means アルゴリズムを使用してデータエントロピーに従ってデータをクラスタ化し、異なるデータクラスターを取得します。各データ クラスターの指示を微調整し、C-Eval を実行した後の MindLLM の結果は次の表に示されています (MMLU の結果については、論文の表 19 を参照してください)。 表の結果によると、異なるデータ クラスターにおける MindLLM-1.3B と MindLLM-3B のパフォーマンスは大幅に異なります。さらに、図に示すように、C-Eval と MMLU のデータ エントロピーとモデルの精度の関係について関数フィッティング分析を実行しました。 画像内の赤い五芒星の点は、事前トレーニング済みモデルのエントロピー値です。分析によると、データのエントロピーが事前トレーニング済みモデルのエントロピーより 1 ~ 1.5 高い場合、この範囲のデータ指示で微調整した後、モデルは最高のパフォーマンスを発揮します。そこで、データエントロピーを通じて高品質データを定義し、高品質データを選別する方法を提案します。 MindLLMは、指定された指示を通じて特定の機能を取得するためにデータセットを微調整することができます。 MindLLM が命令の微調整を通じて特定の機能を効果的に向上できるかどうかを調べるために、Wanjuan データセットの試験データを使用してモデルを部分的に微調整し、モデルの主題知識機能を強化します。 C-Eval で評価を実施した結果は次のとおりです。 指示を微調整した後、モデルの主題知識能力が大幅に向上したことがわかります。1.3B MindLLM のパフォーマンスは、ChatGLM-6B や Chinese-Alpaca-33B などの大規模モデルを上回っています。したがって、MindLLM は、指示を微調整することで特定の機能を強化できると考えています。軽量な特性を考えると、下流の垂直フィールド タスクでの展開に適しています。 フィールドアプリケーション特定の分野における小規模モデルの有効性を実証するために、金融と法律の 2 つの公開データセットを使用して検証を行いました。結果から、モデルのパラメータ サイズがドメインのパフォーマンスに一定の影響を与えることがわかりますが、パフォーマンスは明らかではありません。 MindLLM のパフォーマンスは、ドメイン アプリケーションにおいて同様のサイズの他のモデルを上回り、より大きなモデルに匹敵します。これは、小型モデルが現場での応用に大きな可能性を秘めていることをさらに証明しています。 金融セクターこの分野では、感情を考慮した分類タスクが金融データに対して実行されます。まず、Eastmoney.comから2011年5月13日から2023年8月31日までのデータをクロールし、その後の株価変動に応じてデータをマークしました。次に、データは日付に応じてトレーニング セットとテスト セットに分割されます。カテゴリーの不均衡を考慮してデータをサンプリングし、最終的に 320,000 個のデータをトレーニング セットとして使用し、20,000 個のデータをテスト セットとして使用しました。 2 つの異なるトレーニング方法を使用して、さまざまなモデルのパフォーマンスを比較します。まず、テキスト分類のトレーニングには、単純な教師あり微調整 (SFT) のみが使用されます。次に、推論プロセス データが ChatGPT から抽出され、具体的には COT (Chain-Of-Thought) トレーニング メソッドを使用して、補助データとしてトレーニングに追加されます。 実験結果によると、補助情報を補足することで、すべてのベースライン モデルと MindLLM モデルの効果をさまざまな程度まで改善できることがわかりました。さらに、COT トレーニングにより、SFT トレーニング パフォーマンスと比較して、MindLLM-1.3B と 3B のパフォーマンスがそれぞれ 27.81% と 26.28% 向上することが確認できます。Baichuan-7B を除き、MindLLM の改善は他のモデルよりも顕著です。さらに、MindLLM-1.3B と 3B は同じスケールで最高のパフォーマンスを達成し、ChatGLM2-6B と Open-LLaMA-7B を上回ります。 法務分野私たちはいくつかの公開法定データを収集し、それをいくつかの一般的な命令データと組み合わせて、MindLLM で命令の微調整 (SFT) を実行しました。データのトークンの長さが特定の分野でのモデルのパフォーマンスにどのように影響するかを調べるために、異なる長さのデータを使用して MindLLM を個別にトレーニングしました。まず、長さが 450 未満であるすべてのデータを除外し、次に MindLLM-1.3B と MindLLM-3B のトークナイザーを使用して、それぞれ長さが 200 ~ 300 と 300 ~ 450 のデータを除外しました。データの統計と対応するトレーニング モデルを次の表に示します。 人間による評価の偏りや専門知識不足によるエラーを避けるため、評価器にはChatGPTを使用します。具体的な方法は以下の通りです。 ChatGPT によって生成された複数ラウンドの法律相談対話データセット。そのうち 100 件が評価データとして抽出されました。 ChatGPT を使用して、法律相談に対するモデルの応答を評価し、ChatGPT にモデルの応答をランク付けさせ、ランク付け結果に基づいて Elo スコアを計算します。最終的に、他のオープンソース モデルと比較するために、MindLLM-Law が最適なモデルとして選択されました。 Bloom、GPT-Neo、Open-LLaMA モデルでは、MindLLM-Law と同じデータセットが微調整に使用されました。比較結果を以下に示します。 結果は、MindLLM-Law が 13B パラメータと ChatGLM2-6B のモデルをまだ上回っていないことを示しています。主な理由は、事前トレーニング段階での法的データが不十分で、より大きな利益をもたらすことができなかったことです。しかし、Baichuan2-7B-Chat、微調整されたOpen-LLaMA-7B、および同規模の他のモデルと比較すると、MindLLMには明らかな全体的な利点があります。 要約するこの記事では、現在 2 つの軽量大規模言語モデルを含む MindLLM シリーズのモデルを紹介します。データ処理、事前トレーニング、微調整、ドメインアプリケーションなどのトレーニングプロセスについて詳しく議論し、これらの分野で蓄積された貴重な経験と技術的アプリケーションを共有しました。 MindLLM のパラメータ サイズは比較的小さいにもかかわらず、複数のパフォーマンス テストで優れたパフォーマンスを発揮し、いくつかの面ではより大規模なモデルを上回っています。 MindLLM は、他の軽量モデルと比較して、ドメイン適応において優れたパフォーマンスを示します。同時に、大規模なモデルよりも高速なトレーニング速度と少ないトレーニング リソースで同等の結果を達成できます。上記の分析に基づいて、小型モデルには依然として大きな可能性があると考えています。データ品質をさらに向上させ、モデルのトレーニング プロセスを最適化し、モデルの規模を拡大することで、MindLLM のパフォーマンスを多次元的に向上させます。今後は、より多くの下流タスクと特定の分野で実験を行い、軽量大規模モデルの特定のアプリケーションをさらに実装する予定です。 |
<<: 生成された分子は、逆分子設計の誘導拡散モデリングに対してほぼ100%有効です。
>>: テレンス・タオの論文の抜け穴をAIが発見。定理の名前から研究の方向性を推測。専門家はAIの能力はすごいと語る
[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術...
2018年、5Gの人気が急速に高まり始めました。その年から、我が国は5G基地局の建設を開始し、全国...
デンマークは、1970年代初頭から国家政策の一環として風力タービンに投資した最初の国の一つであり、こ...
バージニア州は7月に地元警察による顔認識技術の使用禁止を解除する予定だが、カリフォルニア州とニューオ...
私たちは職場における技術革命の真っ只中にいます。 1か月ちょっと前に世界の人口の3分の1が隔離された...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[51CTO.comより引用] 2018年11月30日から12月1日まで、WOT2018グローバル人...
「Dlib は、高度なソフトウェアを作成するための機械学習アルゴリズムとツールの最新の C++ ツー...
好きでも嫌いでも、あるいは恐れていても、ChatGPT に代表される新興の人工知能 (AI) プラッ...
人工知能 (AI): ChatGPT などのツールの最近の登場により、AI はビルダーの間で注目を集...
IT Homeは1月23日、Googleが最近、大規模言語モデル向けに特別に設計されたASPIREト...