AIビッグモデルにおける言語の不平等:英語は最も安価、他の言語ははるかに高価

AIビッグモデルにおける言語の不平等:英語は最も安価、他の言語ははるかに高価

7月31日、ユーザーが使用する言語が大規模言語モデル(LLM)のコストに大きな影響を与え、英語話者と他言語話者の間に人工知能の格差が生じる可能性があると報告された。最近の調査によると、OpenAIなどのサービスがサーバーのコストを測定し請求する方法により、英語の入力と出力は他の言語よりもはるかに安く、簡体字中国語は英語の約2倍、スペイン語は1.5倍、ビルマ語のシャン語は15倍のコストがかかるという

IT Homeは、TwitterユーザーのDylan Patel (@dlan522p)がオックスフォード大学が実施した調査の写真を共有したことに気付きました。その調査では、LLMがビルマ語の文章を処理するのに198トークンかかるのに対し、英語で書かれた同じ文章には17トークンしかかからないことがわかりました。トークンは、OpenAI の ChatGPT や Anthropic の Claude 2 などの API を介して LLM にアクセスするための計算コストを表します。つまり、ビルマ語の文章は英語の文章よりも 11 倍コストがかかります。

トークン化は、AI企業がユーザーの入力を計算コストに変換する方法であり、英語以外の言語でモデルを使用およびトレーニングするにはコストがはるかに高くなることを意味します。これは、中国語などの言語は構造が異なり、より複雑であるため(文法と文字数の両方の点で)、より高いレマ率が必要になるためです。たとえば、OpenAI の GPT3 トークナイザーによると、「your Affection」というトークンは英語では 2 つのトークンしか必要としませんが、簡体字中国語では 8 つのトークンが必要になります。簡体字中国語のテキストには 4 文字 (your love) しかありませんが、英語のテキストには 14 文字あります。

<<:  マイクロソフト、自然言語インターフェース開発を簡素化する TypeChat ライブラリを発表

>>:  保険詐欺防止リスク管理の実践

ブログ    

推薦する

人工知能を活用して顧客サービス体験を向上させる 5 つの方法

人々がデジタルの世界に移行するにつれて、組織と顧客の関係はここ数年で変化してきました。顧客の期待はか...

この敵対的アルゴリズムは顔認識アルゴリズムを失敗させ、WeChatやWeiboの写真圧縮にも抵抗できる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

メタバースはヘリコプターの飛行に役立ちますか? ALIASシステムはブラックホークを30分間フル稼働させる

無人ヘリコプター自体は目新しいものではないが、現在市販されている無人ヘリコプターは、第一に誰かが遠隔...

...

Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

少し前に、スローン財団は2022年度スローン研究賞の受賞者を発表しました。Chen Danqi、Fa...

人工知能教育の現状と動向

人工知能への熱狂が世界を席巻している。国は人工知能の分野で戦略的な配置を開始しており、人工知能の人材...

オライリー、2023年ジェネレーティブAIエンタープライズレポートを発表

O’Reilly は、企業における生成 AI の実態について 2,800 人を超える技術専門家を対象...

マイクロソフト、ヘルスケア業界がデータの価値を解き放つための新しい AI ソリューションをリリース

ヘルスケア業界とそのサービス技術が急速に発展するにつれて、大量のデータと情報が生成されます。統計レポ...

...

5年後に最もホットなものは何でしょうか? 2025 年のトップ 10 トレンド: ゼロ検索時代の到来

[[273076]]ファーウェイは8月8日、世界産業展望GIV@2025を発表し、次のように予測した...

...

天文学者は人工知能を使って宇宙の実際の形を明らかにする

日本の天文学者たちは、銀河の形状のランダムな変化によって生じる天文データの「ノイズ」を除去する新しい...

...