7月31日、ユーザーが使用する言語が大規模言語モデル(LLM)のコストに大きな影響を与え、英語話者と他言語話者の間に人工知能の格差が生じる可能性があると報告された。最近の調査によると、OpenAIなどのサービスがサーバーのコストを測定し請求する方法により、英語の入力と出力は他の言語よりもはるかに安く、簡体字中国語は英語の約2倍、スペイン語は1.5倍、ビルマ語のシャン語は15倍のコストがかかるという。 IT Homeは、TwitterユーザーのDylan Patel (@dlan522p)がオックスフォード大学が実施した調査の写真を共有したことに気付きました。その調査では、LLMがビルマ語の文章を処理するのに198トークンかかるのに対し、英語で書かれた同じ文章には17トークンしかかからないことがわかりました。トークンは、OpenAI の ChatGPT や Anthropic の Claude 2 などの API を介して LLM にアクセスするための計算コストを表します。つまり、ビルマ語の文章は英語の文章よりも 11 倍コストがかかります。 トークン化は、AI企業がユーザーの入力を計算コストに変換する方法であり、英語以外の言語でモデルを使用およびトレーニングするにはコストがはるかに高くなることを意味します。これは、中国語などの言語は構造が異なり、より複雑であるため(文法と文字数の両方の点で)、より高いレマ率が必要になるためです。たとえば、OpenAI の GPT3 トークナイザーによると、「your Affection」というトークンは英語では 2 つのトークンしか必要としませんが、簡体字中国語では 8 つのトークンが必要になります。簡体字中国語のテキストには 4 文字 (your love) しかありませんが、英語のテキストには 14 文字あります。 |
<<: マイクロソフト、自然言語インターフェース開発を簡素化する TypeChat ライブラリを発表
現在、50歳以上の人口は世界で最も急速に増加している年齢層となっており、当然ながら世界経済と医療制度...
AIの兵器化?大規模言語モデルの誕生以来、人々はその潜在的な影響について議論し続けています。しかし...
最近、米国プリンストン大学の研究者らがソフトロボットを製造する新しい方法を開発しました。このロボット...
[[347259]]序文この共有の内容は、古典的なアルゴリズムのアイデアである分割統治です。これは...
AI 技術の継続的な革新と発展により、人工知能 (AI) は多くの分野で大きな進歩を遂げており、その...
人工知能の将来はどうなるのでしょうか?どのような方向に発展していくべきでしょうか?開発プロセス中に注...
C# のデータ構造とアルゴリズムのキューは、リストの先頭での削除操作とリストの末尾での挿入操作のみを...
MITコンピュータ科学・人工知能研究所(MIT CSAIL)は3月3日、現段階では人間はAIに仕事を...
【51CTO.com クイック翻訳】 [[393512]] AI、機械学習、ディープラーニングの発展...
AIGC のテキストからオーディオ (または音楽) を生成するトラックにおいて、Meta は最近新...
モデルの一般化能力を向上させることは、視覚ベースの認識方法の実装を促進するための重要な基盤です。テス...