IT Homeは11月10日、OpenAIがAIモデルのトレーニング用にパブリック/プライベートデータセットを生成するために組織と協力すると発表したと報じた。このデータパートナーシップの目的は、「より多くの組織がAIの未来を導くのに貢献できるようにする」ことと、「より有用なモデルから利益を得る」ことにある。 IT Homeはブログから、OpenAIが「最終的にAIをより安全にし、全人類に利益をもたらすためには、AIモデルがあらゆるトピック、業界、文化、言語を深く理解できるようになることを期待しており、そのためには可能な限り幅広いトレーニングデータセットが必要である」と述べたことを知った。 OpenAIは、データ・パートナーシップ・プログラムの一環として、「人間社会を反映した」、現在はオンラインで簡単にアクセスできない「大規模な」データセットを収集すると述べた。同社は画像、音声、動画など複数のモダリティにわたる取り組みを計画しているが、特にさまざまな言語、トピック、形式にわたる「人間の意図を表現する」(長文の文章や会話など)データを求めている。 OpenAIは、必要に応じて組織と協力し、光学式文字認識と自動音声認識ツールを組み合わせてトレーニングデータをデジタル化し、必要に応じて機密情報や個人情報を削除すると述べた。 OpenAI は、AI モデルのトレーニングに誰でも使用できる公開オープンソース データセットと、独自の AI モデルをトレーニングするためのプライベート データセットのセットの2 種類のデータセットを作成したいと考えています。 OpenAIによると、このプライベートセットは、データを非公開にしたいが、OpenAIのモデルに自分の分野をより深く理解してもらいたい組織向けだという。これまでOpenAIは、アイスランド政府やMiðeind ehfと協力してGPT-4のアイスランド語会話能力を向上させ、Free Law Projectと協力してモデルの法的文書理解能力を向上させてきた。 |
<<: 製造および自動化アプリケーション向けの人工知能技術の選び方
>>: AIはイスラエルとパレスチナの紛争の偽画像を生成し、それが非常にリアルであるためメディアで引用されている
大規模言語モデル (LLM) には、デコーダーのみの構造 (GPT や LLAMA シリーズ モデル...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
実際の展開においては、大規模言語モデル(LLM)をどのように「整合」させるか、つまりモデルの振る舞い...
[[205595]]この記事では、エントリーレベルのスタッキング アプリケーションを学習する私の精神...
[[345762]]秋は収穫の季節だが、英国やオーストラリアなどの果樹農家は不安を抱いている。畑では...
Zhihu で質問を見ました: WeChat の赤い封筒のランダム アルゴリズムはどのように実装さ...
[[439245]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[284002]]米国証券調査協会によると、インテルは昨日、最新のNervanaニューラルネット...
機械学習とデータサイエンスを少しでも勉強したことがあるなら、クラス分布の不均衡に遭遇したことがあるは...
2020年に突如発生した新型コロナウイルス感染症のパンデミックにより多くの従業員が自宅待機を余儀なく...
この時代に本物の鉄丼なんて存在しない!最近、広東省の高速道路で非接触型決済が導入されたというニュース...
コンピューター科学者は、人工知能の中核技術である機械学習とディープラーニングにおいて大きな進歩を遂げ...
11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モ...
「陸地が3つ、海が7つ」。広大な海には数え切れないほどの謎が隠されている。深海探査は工学技術分野で常...