この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 5 月初旬、Meta は複数の異なるタスクを実行できる大規模な言語モデル、Open pretraining Transformer (OPT-175B) をリリースしました。過去数年間、大規模言語モデル (LLM) は人工知能研究におけるホットなトピックの 1 つになりました。 OpenAI が 1,750 億のパラメータを持つディープ ニューラル ネットワーク GPT-3 をリリースした後、LLM の「軍拡競争」が引き起こされ、OPT-175B がこの競争の最新の参加者となりました。 GPT-3 は、LLM が追加のトレーニングなしで多くのタスクを実行できることを示しています。その後、マイクロソフトは GPT-3 を自社のいくつかの製品に統合し、科学研究における LLM の可能性だけでなく、商業的応用の可能性も実証しました。 OPT-175B のユニークな点は、モデル名 (OpenXX) が示すように、Meta のオープン性への取り組みです。 Meta はこのモデルを一般に公開し、トレーニングと開発のプロセスに関する詳細な情報を公開しました。 Meta AI ブログに掲載された記事の中で、Meta は OPT-175B のリリースを「大規模言語モデルへのアクセスの民主化」と表現しました。 Meta の透明性に向けた取り組みは称賛に値します。しかし、大規模な言語モデルとの激しい競争の中で、民主化は困難になってきています。 1750億のパラメータを持つ1つのOPTMeta がリリースした OPT-175B には、いくつかの重要な機能があります。これには、事前トレーニング済みのモデルと、LLM のトレーニングと使用に必要なコードが含まれています。ニューラル ネットワークのトレーニングには、実行よりも多くのコンピューティング リソースが消費されるため、事前トレーニング済みのモデルは、モデルをトレーニングするためのコンピューティング リソースを持たない組織にとって特に役立ちます。大規模なニューラル ネットワークのトレーニングに必要なコンピューティング リソースを削減することで、膨大な二酸化炭素排出量の回避にも役立ちます。 GPT-3 と同様に、OPT にも 1 億 2500 万から 1750 億のパラメータまでさまざまなスケールがあります。パラメータが多いモデルほど、学習能力が高くなります。現在、300億パラメータ以下のすべてのバージョンを直接ダウンロードできます。 1750億パラメータの完全版のモデルは、申請書に記入することで選ばれた研究者や機関に提供される予定だ。 Meta AIはブログ投稿で次のように述べています。 「学術的誠実性を確保し、悪用を防ぐために、私たちは研究用途に重点を置く非商用ライセンスでモデルを公開します。このモデルは、世界中の学術研究者、政府、民間社会、学術界に関わる組織、および産業界の研究室で使用できるようにライセンスされます。」 モデルに加えて、Meta は、大規模な言語モデルの開発とトレーニング プロセスの詳細な技術的タイムラインを提供する完全なログもリリースしました。通常、公開される論文には、モデルの最終バージョンに関する情報のみが含まれます。 Meta 氏は、このログは「OPT-175B のトレーニングに使用された計算量や、基盤となるインフラストラクチャやトレーニング プロセス自体が大規模に不安定になったときに必要となる人的オーバーヘッド」など、いくつかの貴重な情報を提供すると述べました。 2 メタ: GPT-3は十分に透明ではないMeta はまた、ブログ投稿で、大規模言語モデルは主に「有料 API」を通じてアクセス可能であり、LLM へのアクセスを制限すると「研究者がこれらの大規模言語モデルがどのように、なぜ機能するかを理解するのが制限され、モデルの堅牢性を改善し、モデルの偏りや有害性などの既知の問題を軽減するためのさらなる取り組みが妨げられる」と述べた。 これは、モデルの重みとソースコードを公開するのではなく、GPT-3をブラックボックスAPIサービスとしてリリースしたOpenAIに対する批判です。 OpenAIは、GPT-3を公開しなかった理由の1つは、有害なアプリケーションの悪用や開発を抑制するためだと述べた。 Meta は、モデルをより幅広いユーザーが利用できるようにすることで、研究を促進し、モデルが引き起こす可能性のある危害を防ぐことができると主張しています。 Meta は彼らの仕事を次のように説明しています。 OPT-175B により、大規模言語モデル作成の最前線にさらに多くの声が寄せられ、コミュニティが責任あるリリース戦略を共同設計し、この分野における大規模言語モデルの開発に前例のない透明性とオープン性がもたらされることを期待しています。 3 大規模言語モデルのコストただし、大規模言語モデルの「透明性とオープン性」は「民主化」と同じではないことに注意することが重要です。大規模な言語モデルのトレーニング、構成、実行にかかるコストは依然として高く、今後も増加し続ける可能性があります。 Metaのブログ投稿によると、研究者たちは大規模な言語モデルのトレーニングコストを大幅に削減することに成功したという。このモデルの二酸化炭素排出量はGPT-3の7分の1に削減されたという。専門家はこれまで、GPT-3のトレーニングコストは2,760万ドルに上ると見積もっていた。 これは、OPT-175B のトレーニング コストが依然として数百万ドルにも上ることを示しています。幸いなことに、事前トレーニング済みのモデルではモデルをトレーニングする必要がなくなり、Meta は「わずか 16 個の NVIDIA V100 GPU で」完全なモデルをトレーニングおよび展開するためのコード ライブラリを提供すると述べている。これは約 40 万ドルの Nvidia DGX-2 に相当し、資金不足の研究室や個人の研究者にとっては依然として高額です。 OPT-175B の詳細を記した論文によると、Meta は V100 よりも大幅に高速な 992 個の 80GB A100 GPU を使用してモデルをトレーニングしました。 Meta AI のログは、大規模な言語モデルのトレーニングが非常に複雑なタスクであることをさらに裏付けています。 OPT-175B の開発期間中は、サーバーのクラッシュ、ハードウェア障害、その他の複雑な問題が頻発し、解決には高度な技術者が必要でした。研究者たちは、トレーニングプロセスを何度も再開し、ハイパーパラメータを微調整し、損失関数を変更する必要もありました。これらすべての追加コストは、小規模な研究室では負担しきれません。 民主化の4つの障害:権力が少数の企業に集中しているOPT や GPT などの言語モデルは、トランスフォーマー アーキテクチャに基づいています。トランスフォーマーの主な機能の 1 つは、大量の連続データ (テキストなど) を並列かつ大規模に処理できることです。 近年、研究者らは、トランスフォーマーアーキテクチャにレイヤーとパラメータを追加することで、言語タスクのパフォーマンスを向上できることを示しました。より高いレベルの知能に到達することは単に規模の問題であると考える研究者もいる。その結果、Meta AI、DeepMind(Alphabet所有)、OpenAI(Microsoft後援)などの資金力のある研究室は、DeepMindの最新のマルチモーダルAIシステムGatoなど、ますます大規模なニューラルネットワークの作成に取り組んでいます。 昨年、Microsoft と Nvidia は、Megatron-Turing (MT-NLG) と呼ばれる 5,300 億パラメータの言語モデルを作成しました。先月、Google は 5,400 億のパラメータを持つ大規模言語モデルである Pathways Language Model (PaLM) を発表しました。 OpenAI が今後数か月以内に GPT-4 をリリースするという噂さえあります。 ただし、ニューラル ネットワークの規模が大きくなると、より多くの資金と技術リソースも必要になります。大規模な言語モデルは、より多くの新しい機能(および新しい失敗)をもたらしますが、必然的に少数の裕福な企業の手に権力が集中し、小規模な研究室や独立した研究者が大規模な言語モデルに取り組むことが難しくなります。 ビジネスにおいては、大手テクノロジー企業がより大きな優位性を持つことになるだろう。大規模な言語モデルを実行するのは非常にコストがかかり、困難です。 Google や Microsoft などの企業は専用のサーバーとプロセッサを持っているため、これらのモデルを大規模に収益を上げて実行できます。中小企業にとって、GPT-3 のような LLM の独自バージョンを作成するのはコストがかかりすぎます。ほとんどの企業が独自のサーバーやデータセンターを構築するのではなくクラウド ホスティング サービスを使用するのと同様に、大規模な言語モデルの人気が高まるにつれて、GPT-3 API のようなすぐに使用できるシステムがより魅力的になるでしょう。 これにより、AI はさらに大手テクノロジー企業の手に集中することになります。より多くの AI 研究機関が、研究資金を得るために大手テクノロジー企業と提携する必要があるでしょう。これにより、大手テクノロジー企業は、AI 研究の将来の方向性を決定する力がさらに強まることになります (自社の経済的利益と一致する方向性で)。短期的な投資収益が得られない研究分野は、支払うべき代償となる可能性がある。 結局のところ、Meta が LLM に透明性をもたらしたことを私たちは称賛しますが、大規模言語モデルは本質的に非民主的であることを忘れてはなりません。大規模言語モデルは、それをより推進する企業に利益をもたらすだけです。 |
「モデルには道徳的に推論する能力がありますか?」この質問は、モデルによって生成されるコンテンツ ポ...
[[387639]]人工知能に関するこれらの 8 冊の本は、AI に関連する倫理的問題、AI が雇用...
[[419606]]昨年、アメリカ人のカップル(スティーブン・フランクとアンドレア・フランク)が、...
01 ROS入門多くの初心者は、ロボットのオペレーティングシステムと聞いて、「オペレーティングシス...
パート01 「ネットいじめ」とは何ですか? 「サイバー暴力」とは、インターネット上で文章、画像、動画...
誰もが美を愛しますが、誰もが生まれながらに美しさを持っているわけではないので、さまざまな種類の写真美...
[[429163]]人工知能、機械学習、自動化などの先進技術の普及により、企業のビジネスシナリオは大...
なぜ良いチャットボットがないのでしょうか? これは私がかなり頻繁に、おそらく平均して週に 2 回は聞...
人工知能が賢くなるにつれて、人類を絶滅させるだろうという主張が次々と現れています。実際、多くの有力者...
Star Health と ICICI Lombard は、医療保険契約者に対する請求の事前承認プロ...
NeurIPS は世界で最も権威のある AI 学術会議の 1 つです。正式名称は Neural I...