12月7日水曜日、米国現地時間、Googleは新世代の人工知能モデル「Gemini」をリリースした。 Gemini は、最高経営責任者の Sundar Pichai が監督し、推進する Google 社内の数年にわたる取り組みを反映しています。 かつてChromeとAndroid事業を担当していたピチャイ氏は、よく知られた製品ファンだ。 2016年、CEOとしての最初の年次創業者レターで、ピチャイ氏は「私たちはモバイルファーストからAIファーストの世界に移行するだろう」と予測した。それ以来、ピチャイ氏はAndroidデバイスからクラウドコンピューティングまで、Googleのすべての製品に人工知能技術を徐々に統合し始めた。 しかしながら、Google の最近の脚光は徐々に OpenAI に奪われつつあり、OpenAI が昨年リリースした DALL-E と GPT-3.5、そして今年リリースした GPT-4 は人工知能業界全体を支配し、新興企業とテクノロジー大手の間で激しい競争を引き起こしている。 ジェミニは今やこの争いに新たに参入した。このシステムは、デミス・ハサビス氏が率いる新しく統合された部門であるGoogle DeepMindによって運営されています。現在、Google のチャットボット「Bard」で Gemini を体験できます。Bard は 2024 年に Google の製品ラインに統合される予定です。 ジェミニの打ち上げ前夜、MITテクノロジーレビューはカリフォルニア州マウンテンビューのグーグルのオフィスでピチャイ氏と話をし、このモデルがグーグル、その製品、人工知能、そして社会全体にとって何を意味するのかを議論した。 インタビュー内容は以下の通りです。 Q: ジェミニはなぜそんなに面白いのですか? AI全般についてのあなたの考えを教えていただけますか?そのパワー、その有用性は、あなたのすべての製品においてどこに向かっているのでしょうか? ピチャイ: Gemini の魅力的な点の 1 つは、最初からネイティブのマルチモーダル モデルであることです。人間と同じように、テキストだけでなく、ビデオ、オーディオ、コードからも学習します。したがって、このモデルは本質的により高性能であり、新しい機能を発見し、この分野の進歩に貢献するのに役立つと考えています。とても興奮しています。 もう 1 つ興味深いのは、Gemini が 32 の主要なベンチマークのうち 30 で、特にマルチモード ベンチマークで最高のパフォーマンスを発揮したことです。 MMLU(Massive Multi-Task Language Understanding)テストでは、さらに大きな進歩が見られました。個人的には、MMLU の主要ベンチマークの 1 つとして Gemini が 90% のしきい値を突破したことは、重要なマイルストーンだと考えています。 2年前は30%でしたが、その後40%になりました。これは、この分野でどれだけの進歩があったかを示しています。 57 回のテストで、Gemini は 89% の確率で人間の専門家と同等のパフォーマンスを発揮しました。これはその限界を超えた最初のモデルです。 また、Gemini がついに私たちの製品に搭載されることにも興奮しています。開発者向けに公開されます。これはプラットフォームです。 AI は、Web やモバイルよりも大きな、プラットフォームの根本的な変化です。ですから、その時点から、それは私たちにとって大きな一歩となりました。 Q: まずはこれらのベンチマークから始めましょう。 Gemini はテストされたほぼすべての面で GPT-4 より優れているように見えますが、大きな差はありません。そして、GPT-4 は大きな前進であるように思われます。こうした大規模な言語モデル技術でできることは停滞し始めているのでしょうか、それとも、今後も成長の余地が大いにあるとお考えでしょうか? ピチャイ:まず第一に、将来を見据えると、成長の余地は大いにあると考えています。いくつかのベンチマークはすでに高くなっています。 85% から抜け出そうとする時点で、すでに曲線の端にいることを認識する必要があります。大したことではないように思えるかもしれませんが、進歩が遂げられていることを意味します。より新しいベンチマークも必要であり、それが MMLU マルチモーダル ベンチマークを研究した理由の 1 つです。これらの新しいベンチマークのいくつかについては、現在の最先端技術のレベルはまだはるかに低く、将来的には改善の余地が大きくあります。スケーリングの法則は依然として当てはまります。つまり、モデルを大きくすればするほど、進歩は大きくなります。全体像から見ると、まだ始まったばかりだと感じます。 Q: ジェミニの主なブレークスルーは何だとお考えですか? また、それがどのように応用されるのでしょうか? ピチャイ氏:どのような飛躍が起こるのかを人々が想像するのは難しいです。私たちは API を提供しており、人々はそれを非常に深い意味で体験することになります。マルチモーダルベンチマークには、まだまだ発展の余地があると思います。これらのモデルにさらに推論を教えていくと、より大きなブレークスルーが生まれ、さらに深いブレークスルーが今後も起こるでしょう。 この問題の解決策の 1 つは、ベンチマーク テストで非常に優れたパフォーマンスを発揮する Gemini Pro です。しかし、それをBardに組み込んだとき、ユーザーとしてそれを実感できました。私たちはこれをテストしてきましたが、すべてのカテゴリーで好意的な評価が大幅に向上したことがわかりました。そのため、私たちはこれをこれまでで最大のアップグレードの 1 つと呼んでいます。実際に同時に並列評価を行ったところ、優れたパフォーマンスを示しました。つまり、ベースラインを改善するより優れたモデルがあり、進歩しているということです。私たちはこれからもトレーニングを続け、学び続けます。 しかし、Gemini を当社の製品に実装するのが待ちきれません。これらのモデルは非常に強力です。今後数か月間、すべてのモデルが持つ機能を最大限に活用した製品エクスペリエンスを実際に設計するのは、非常にエキサイティングなこととなるでしょう。 Q: Gemini はほぼすべての点で GPT-4 を上回っていますが、その差はわずかですか? GPT-4 のリリースから何を学んだのでしょうか?何を学びましたか?この間にどのようなアプローチが変化しましたか? ピチャイ:少なくとも私の意見では、これはゼロサムゲームからは程遠いものです。 AI への移行がいかに大きなものであるかを考えてみてください。私たちはまだ初期段階にあり、この先には無限のチャンスが広がっています。 しかし、あなたの具体的な質問に関して言えば、これは私たち全員が急速な進歩を遂げている分野です。私たちは、GPT-4 のようなモデルが現実世界でどのように機能するかを研究した論文を多数発表しています。私たちはそこから学びました。安全性は重要な領域です。そこで、Gemini プロジェクトでは、現実世界でのモデルの動作に基づいて、いくつかのセキュリティ技術を学習し、改善してきました。微調整など様々なことの重要性が分かります。 Med-PaLM 2 で示したことの 1 つは、PaLM のようなモデルを特定のドメインに合わせて微調整することで、最先端のモデルよりも優れたパフォーマンスを発揮できることです。これは、自分の強さを微調整する方法の一つです。 こうした経験の多くは、Gemini の開発時に活用されました。 Gemini Ultra (来年発売予定のより高度な Gemini) の開発に多くの時間を費やしている理由の 1 つは、厳格なセキュリティ テストを確実に実施するためです。しかし、私たちはその機能性を最大限に引き出すために微調整も行っています。 Q: これらのモデルがリリースされ、人々が現実世界でテストし始めると、モデルが幻覚を起こしたり、モデルのトレーニングに使用された個人データの一部が漏洩したりすることが分かっています。使用されているデータを考慮すると、これが避けられないことであれば、これがどの程度テクノロジーに固有のものなのか疑問に思います。これが避けられない場合、それを制限するために何を試みますか? ピチャイ:その通りです。これらはすべて活発に研究されている分野です。実際、私たちはこれらのモデルがさまざまな手がかりを通じてどのようにトレーニング データを漏らす可能性があるかを示す論文を発表しました。幻覚はまだ解決可能な問題ではありませんが、私たちは皆進歩していると思います。ただ、やるべきことがまだたくさんあります。克服しなければならない根本的な制限がいくつかあります。たとえば、Gemini Ultra の場合、当社はこれらの分野の専門家である外部の第三者と協力して、これらのモデルに積極的に取り組んでいます。 マルチモダリティのような分野では、私たちはもっと大胆に、責任を持って取り組みたいと思っています。誤ったユースケースが発生する可能性が高いため、マルチモーダル モデルの展開にはより注意を払う必要があります。しかし、おっしゃる通り、これはまだ開発中の技術であり、すべてにおいて意味を成すわけではありません。検索においては、これをどのように、いつ、どこで、いつ起動するかについて、より慎重になる必要があるでしょう。彼らには多くの素晴らしい能力がありますが、重大な欠点もあります。これは私たち全員が直面している困難な課題です。 しかし、コンピューターをポケットに収めることはできないと考える人がいたのと同じように、将来の AI システムは今日のものとは異なっている可能性があります。同様に、これらのシステムを見て、よりよいシステムを設計することはできないと言うことにも、私は同意しません。これらの問題をどのように解決するかを考えるための研究がすでに数多く行われています。 Q: 人工知能は大きな変化をもたらすと信じています。モバイル デバイスへの移行など、最近のいくつかの変化は、必ずしも生産性の向上につながるわけではなく、長い間一定のままです。所得格差がさらに拡大する可能性があるとの見方もある。この移行が社会にとってより有益なものとなるよう、Google はどのような取り組みを行っているのでしょうか? ピチャイ:これは非常に重要な質問です。私はこれについていくつかのレベルで考えています。 Google が常に注力していることの 1 つは、「テクノロジーをできるだけ広く利用できるようにするにはどうすればよいか」ということです。 Android で多くの成果を上げてきたモバイルでも、まだ携帯電話を利用できない人が何億人もいると思います。私たちは、おそらく 50 ドル以下の手頃な価格のスマートフォンの発売に向けて取り組んでいます。 ですから、AI をすべての人にとって役立つものにすることが、私が注力していることです。できるだけ多くの人に届くように努めます。それもその一部だと思います。 私たちは、人々に利益をもたらすユースケースに AI をどのように適用するかについて深く考えています。たとえば、私たちが早い段階で洪水予測を行ったのは、パターンを検出でき、しかもそれをかなりうまく実行できることに気付いたからです。私たちはこれを 100 の言語間の翻訳に使用しています。私たちは現在、他の方法ではアクセスできないコンテンツをさまざまな言語で提供できるように努めています。 これではあなたが挙げた問題がすべて解決されるわけではありません。しかし、いつ、どこで、どのような問題に焦点を当てるかを慎重に考えてください。 AlphaFold のような領域を例に挙げてみましょう。私たちは世界中のウイルスのオープンデータベースを提供しています。しかし、誰が最初にそれを使うのでしょうか? AI は不平等などのより困難な問題のいくつかを魔法のように改善するのでしょうか、それとも問題を悪化させる可能性はありますか? 誰もがテクノロジーにアクセスできるようにすることが重要です。早い段階でそれを開発し、人々にそれを紹介し、会話に参加することで、社会がそれをテストし、適応するのに役立ちます。 当社は間違いなく他の企業よりも早くこの技術に取り組んでいました。ご存知のとおり、私たちは最近、英国の AI 安全フォーラムに参加しました。また、米国では議会や政権と連携して、より多くの官民パートナーシップを構築し、非営利団体や学術機関を早期に関与させようとしています。雇用などへの影響については、さらなる研究が必要ですが、驚くべき結果が出るのではないかと思います。 携帯電話がもたらした恩恵の例は数多くありますが、AI技術についても同じことが言えると思います。私たちは糖尿病性網膜症などの分野でこれを実証してきましたが、世界の多くの地域では病気の検査を行う医師が不足しています。 Google 検索を世界中の人々に利用できるようにするのと同じように、これは人工知能の利用を拡大する方法だと私は考えています。 Q: 明らかに人々の効率性を高めるのに役立つものがいくつかあります。プログラミングは良い例です。しかし、この技術の普及は雇用を脅かしています。たとえ社会にすべての答えを提供できなくても、企業は世界を変え、大きな影響を与える製品を発売することができます。 ピチャイ氏:当社は顔認識APIを提供していませんが、他社がAPIを開発し、技術は進歩しています。したがって、それは特定の企業の手に委ねられているわけではありません。答えはもっと複雑だと思います。社会も取り残されるかもしれない。これらのテクノロジーを導入しないと、経済競争力に影響する可能性があります。さらに多くの仕事を失うことになるかもしれません。 正しい答えは、責任を持ってテクノロジーを導入して進歩を遂げ、それがより深刻な危害を引き起こす可能性のある分野について考え、それを軽減するために取り組むことだと私は思います。同時に、新しいタイプの仕事も生まれます。過去 50 年から 60 年を振り返ると、MIT の経済学者の研究によると、創出された新しい仕事のほとんどはそれ以降に出現した新しい分野であったことがわかります。 新しい仕事が生まれ、より良い仕事が生まれ、人々は反復的な仕事から解放され、より創造的に自分を表現できるようになります。医者、放射線科医、プログラマーになることもできます。日常的な作業に費やす時間と深く考えることに費やす時間をすべて変更することで、仕事をより有意義なものにすることができます。一部のジョブは置き換えられる可能性もあります。では、社会としてどのように人々の再訓練やスキル向上を図り、機会を創出するのでしょうか? Q: 昨年、人工知能に対する人々の考え方に哲学的な分裂がありました。安全性を第一に考えることも、ビジネスユースケースを第一に考えることも、加速主義者になることも、悲観主義者になることも、どちらも可能です。あなたはこれらすべての哲学を結び付け、組み合わせなければならない立場にいるのです。 Google がこの分野のリーダーとなり、新しい世界に参入する中で、これらの関心を結び付けていくことについて、個人的にどうお考えでしょうか。 ピチャイ:私はテクノロジーに関しては楽観主義者です。私自身の人生を通じて、私は常に人々と人間性を信じてきました。したがって、全体として、人類はテクノロジーを自分たちの利益のために利用するだろうと思います。だから私はいつも楽観主義者でした。 AI のように強力なテクノロジーには二重性があるというのは正しいと思います。 つまり、最先端の技術を押し進めることができると信じているからこそ、時には大胆な一歩を踏み出すこともあるのです。たとえば、AI ががんや気候変動などの問題の解決に役立つとしたら、AI を迅速に開発するためにあらゆる手段を講じたいと思うでしょう。しかし、ディープフェイクであれ、職業代替であれ、社会が適応するための枠組みを開発する必要があることは確かです。これは気候変動と似たようなフロンティアとなるでしょう。これは、今後 10 年間にわたって私たち全員が取り組む最大の問題の一つとなるでしょう。 Q: もう一つの未解決の問題は、AIを取り巻く法律や規制です。フェアユースに関する疑問や、著作権が保護されるかどうかに関する疑問があります。これは知的財産にとって大きな問題になりそうです。あなたの製品を使用する人々に、自分たちの行為が訴訟の対象にならないという安心感を与えるには、どのように伝えますか? ピチャイ:すべての質問に簡単に答えられるわけではありません。 AI が登場する前、検索や YouTube などの製品を構築していたとき、私たちは価値交換を正しく行うのに苦労していました。人工知能についても同様です。私たちは、法律で認められている範囲でそのデータに基づいてトレーニングを行い、人々にオプトアウトの機会を与えることに注力しています。公正使用を構成するレベルも存在します。オリジナルコンテンツのクリエイターにとって価値を生み出すことは重要であり、これらは重要な領域です。インターネットがその一例です。あるいは、電子商取引が始まったとき、電子商取引と通常の商取引の境界線をどのように引くのでしょうか。 時間が経つにつれて、新しい法的枠組みが生まれ、それがこの分野の発展の仕方だと私は考えています。しかし同時に、当社は法律を遵守し、現在多くのコンテンツプロバイダーと築いている深い関係も維持できるよう努力してまいります。議論の余地のある部分もありますが、私たちは解決に向けて懸命に取り組んでいます。これらすべてが長期的に機能するためには、双方に利益のあるエコシステムを構築する必要があります。 Q: 現在、インターネットに関して人々が抱いている懸念の多くは、検索の将来に関するものです。ウェブ上の情報に基づいて質問に答えられるテクノロジーが存在すると、人々はこれらのサイトを訪れる必要がなくなるのではないかと心配する人もいます。これは Google にも影響を与えているようです。あなたは自分でビジネスを始めようと考えているのでしょうか? ピチャイ:検索における当社のユニークな価値提案の 1 つは、ユーザーが新しいものを発見して学び、答えを見つけられるように支援することですが、常に Web 上に存在する豊かで多様な視点をユーザーと共有することを念頭に置いています。これは当社の製品開発においても重要な原則です。人々はいつも「これに答えてください」とは言わないと思います。 聞きたい質問が 1 つか 2 つあるかもしれませんが、戻ってきても、より多くのことを学び、その過程でさらに深く理解することができます。私たちは常に正しいことを確実にしたいと考えています。そして、それは今後も変わらないと思います。バランスを保つことが重要です。 同様に、価値を深く提供すれば、提供するものにはビジネス上の価値が生まれます。デスクトップからモバイルまで同様の問題があり、これは私たちにとって新しいことではありません。私たちがこれまで見てきたことや、ユーザーが高品質の広告にどのように反応するかに基づいて、私は安心しています。 YouTube は、サブスクリプション モデルを開発した優れた例です。これもうまく機能します。 Q: これらの製品が実際に市場に登場し、人々がそれらに触れ始めると、今後 1 年間で人々の体験はどのように変化すると思いますか? ピチャイ: 1年後、Google ドキュメントを使い始める人は皆、何か違うものを期待するようになると思います。それを彼らに渡して、2022 年のバージョンの Google ドキュメントに戻すと、彼らはそれが古くなっていることに気付くでしょう。私の子供たちにとって、Google ドキュメントにスペルチェック機能がないと、基本的に何か問題があると思うようなものです。スペルチェックが導入される前、これらの製品がどのようなものだったかを覚えているでしょう。しかし、他社と比べて、当社は検索に非常に多くの AI を組み込んでいるため、人々はこうした自動機能を当然のことと考えるようになりました。それは私が長年かけて学んだことの一つです。彼らにはそれを当然のこととして受け止めさせましょう。 人間ができることに関して言えば、マルチモーダル機能が開発されるにつれて、人々はこれまでできなかった方法でより複雑なタスクを実行できるようになります。そして、実際の使用例では、これらがさらに強力になることもあります。 |
>>: MetaとMicrosoft、Nvidia GPUの代替として新しいAMD AIチップを購入することを約束
最近、「GFlowNet Foundations」と題された論文が注目を集めています。これはチューリ...
2019 年 2 月、チューリング賞受賞者のジョン L. ヘネシー氏とデビッド A. パターソン氏は...
さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングは費用がかかり、困...
[[247418]]人工知能の分野における成果は、誤解されやすく、過大評価されやすい。このことは、人...
テクノロジーの急速な発展に伴い、人工知能 (AI) は意思決定プロセスにおいてますます重要な役割を果...
[[414820]]最近、DeepMind と Google Research チームが共同で、ニュ...
人工知能の革新により、ツールの使用方法は変化しています。 AI 学習アプリケーションは、適応型学習、...
「自動化」や「人工知能(AI)」などの「技術革新」がビジネスや仕事の本質を変えていることは間違いあり...
[[397045]]画像ソース: https://pixabay.com/images/id-358...
AlphaGo が囲碁のゲームを解読した日、人類は自分たちの仕事が AI に置き換えられるのではない...
今年3月、Googleは生成AI「Bard」のベータ版のリリースを発表しました。当時、このバージョン...