ジェフ・ディーンの1万語の記事:2020年のGoogleの10大分野におけるAI技術の発展

ジェフ・ディーンの1万語の記事:2020年のGoogleの10大分野におけるAI技術の発展

ジェフ・ディーン氏は数万語に及ぶ長文の記事を公開し、過去1年間のGoogleのさまざまな分野での成果と躍進を振り返り、2021年の仕事の目標を展望した。

「20年以上前に私がGoogleに入社したとき、目標は、実際にコンピュータを使ってウェブ上で高品質で包括的な情報検索サービスを提供する方法を見つけることでした。今日まで早送りすると、私たちはより広範な技術的課題に直面していますが、依然として同じ全体的な目標を持っています。それは、世界中の情報を整理し、それを世界中の人々がアクセスでき、使えるようにすることです。」

[[376650]]

2020年、コロナウイルスによって世界が一変する中、私たちはテクノロジーが何十億もの人々のコミュニケーションを改善し、世界を理解し、物事を成し遂げるのにどのように役立つかを目の当たりにしました。私たちが成し遂げた成果を誇りに思うとともに、これからの新たな可能性に興奮しています。 ”

Google Researchは、新型コロナウイルス感染症の拡大予測から、増え続ける言語間での自動翻訳アルゴリズムの設計、機械学習モデルの偏りの軽減まで、さまざまな長期にわたる重要な問題に取り組むことを目指しています。

この記事では、今年の主なハイライトについて説明します。

コロナウイルスと健康

COVID-19 の影響は人々の生活に多大な犠牲をもたらしており、世界中の研究者や開発者が協力して、公衆衛生当局や政策立案者がパンデミックを理解して対応できるようにするためのツールやテクノロジーを開発しています。

AppleとGoogleは2020年に協力し、陽性反応を示した人との接触があった場合に通知するプライバシー保護のBluetooth対応技術であるExposure Notification System(ENS)を開発した。

ENS は従来の接触追跡活動を補完するものであり、感染拡大の抑制に役立てるために 50 を超える国、州、地域の公衆衛生当局によって導入されています。

パンデミックの初期段階では、公衆衛生当局はウイルスの急速な拡大に対抗するためにはより包括的なデータが必要だと述べていた。当社のコミュニティ モビリティ レポートは、人口移動の傾向を匿名で追跡し、研究者が自宅待機命令や社会的距離の確保などの政策の影響を理解するのに役立つとともに、経済への影響の予測も提供します。

当社の研究者らは、従来の時系列ベースのモデルの代わりにグラフニューラルネットワークを使用して、この匿名化されたデータを使用して COVID-19 の拡散を予測することも検討しました。

COVID-19の症状に関する検索傾向から、研究者は、ウイルスの症状であることもある嗅覚喪失などの症状と時期との関連性を探ることができる。より広範な研究コミュニティをさらにサポートするために、Google は一般の人々が研究に参加できる手段を提供する Google Health Research アプリをリリースしました。


図: COVID-19の検索トレンドは、研究者が病気の拡散と症状関連の検索との関連性を研究するのに役立っている

Google のチームは、ウイルスによる健康や経済への影響に取り組む科学コミュニティ全体にツールとリソースを提供しています。


図:新型コロナウイルスの感染拡大をシミュレーションした時空間図

また、皮膚疾患の特定、加齢黄斑変性症(米国と英国では失明の主な原因、世界では失明の第 3 位の原因)の検出の支援、および潜在的な新しい非侵襲的診断(たとえば、網膜画像から貧血の兆候を検出できるようにするなど)にも取り組んでいます。


図: ディープラーニング モデルが網膜画像からヘモグロビン レベルを定量化します。ヘモグロビン値は貧血を検出するための指標である

今年は、同じ技術を使って人間のゲノムを覗き見る方法を示す興味深いデモンストレーションが行われました。畳み込みニューラルネットワークを使用してゲノム配列データ内のゲノム変異を識別するGoogleのオープンソースツールDeepVariantは、今年のFDAのコンテストで4つのカテゴリーのうち3つで最高の精度を獲得した。ダナ・ファーバーがん研究所が主導した研究では、同じツールを使用して、2,367人のがん患者における前立腺がんと黒色腫を引き起こす遺伝子変異の診断を14%向上させました。

天候、環境、気候変動

機械学習は、私たちが環境をより深く理解し、日常生活や災害時に有用な予測を行うのに役立ちます。

天気予報や降水量予報では、NOAA の HRRR などの計算物理学に基づくモデルが長い間主流となってきました。しかし、ML ベースの予測システムでは、現在の降水量をはるかに優れた空間解像度で予測できることを実証できました (「シアトルで雨が降っているか?」だけではなく、「シアトルの近所の公園で雨が降っているか?」)。このシステムは、HRRR よりもはるかに正確な最大 8 時間の短期予測を作成でき、より高い時間的および空間的解像度でより速く予測を計算できます。

また、私たちは HydroNets と呼ばれる改良された技術も開発しました。これは、ニューラル ネットワークを使用して実際の河川システムをモデル化し、上流の水位と下流の洪水の相互作用をより正確に把握して、より正確な水位予測と洪水予報を可能にするものです。これらの技術を活用することで、インドとバングラデシュでの洪水警報の範囲を 20 倍に拡大し、25 万平方キロメートルの地域に住む 2 億人以上の人々をより適切に保護できるようになりました。

アクセシビリティ

機械学習は、ある感覚入力を他の感覚入力に変換することを学習できるため、アクセシビリティを向上させる素晴らしい機会を提供し続けます。たとえば、私たちは視覚障害のあるユーザーが食料品店や自宅のキッチンの戸棚にあるパッケージ食品を識別できるようにする Android アプリ「Lookout」をリリースしました。

Lookout の背後にある機械学習システムは、約 200 万の製品を使用してモバイル フォンでこのタスクをリアルタイムで実行できる、強力でありながらコンパクトな機械学習モデルを実証しました。

同様に、手話を使用してコミュニケーションする人々は、たとえ手話を使用していたとしても、音声ベースの話者検出システムでは彼らが積極的に話していることを検出できないため、ビデオ会議システムを使用するのが困難です。ビデオ会議用のリアルタイム自動手話検出の開発、リアルタイム手話検出モデルを提案し、ビデオ会議システムが手話者をアクティブなスピーカーとして識別するためのメカニズムを提供するためにどのように使用できるかを示します。

他の分野における機械学習の応用

2020 年に、FlyEM チームと共同で、脳組織の高解像度電子顕微鏡画像化に適用された大規模機械学習モデルを使用して再構築された、大規模なシナプス解像度の脳接続アトラスであるショウジョウバエの半脳コネクトームをリリースしました。このコネクトーム情報は、神経科学者によるさまざまな研究に役立ち、脳の働きをより深く理解するのに役立ちます。

責任あるAI

言語モデルの動作をより深く理解するために、言語モデルをよりよく説明し、言語モデルの決定をインタラクティブに探索および分析できるようにするツールキットである Language Interpretability Tool (LIT) を開発しました。

私たちは、事前トレーニング済みの言語モデルにおける性別の関連性を測定する技術と、Google 翻訳における性別による偏見を減らすためのスケーラブルな技術を開発しています。

専門家以外の人が機械学習の結果を解釈できるように、2019 年に導入された TCAV テクノロジーを拡張し、完全かつ包括的な概念セットを提供しています。 「毛深い」と「長い耳」は「ウサギ」を予測する上で重要な概念であると言えます。この研究から、予測を完全に説明するにはこれら 2 つの概念で十分であり、他の概念は必要ないということも言えます。

コンセプトボトルネックモデリングは、タスクの最終予測を行う前に、モデルのレイヤーの 1 つを事前定義された専門家のコンセプト (以下に示す「骨棘の存在」や「翼の色」など) に合わせてトレーニングする手法です。これにより、これらのコンセプトを説明できるだけでなく、動的にオン/オフを切り替えることもできます。

自然言語理解

言語の理解の向上は、今年大きな進歩が見られた分野です。 Google やその他の組織におけるこの分野の研究の多くは現在、トランスフォーマーに依存しています。トランスフォーマーは、もともと言語問題を解決するために開発された特定のスタイルのニューラル ネットワーク モデルです (ただし、画像、ビデオ、音声、タンパク質の折り畳みなど、さまざまな分野にも役立つという証拠が増えています)。

2020 年に、私たちは何でもチャットできる会話型ボット Meena について説明しました。

機械学習アルゴリズム

Google は、2020 年に開発された SimCLR などの教師なし学習の方向に引き続き多大な努力を払い、自己教師あり学習と半教師あり学習の技術を進歩させています。

ImageClass の分類器は、さまざまな自己教師あり手法 (ImageNet で事前トレーニング済み) によって学習された表現を使用して、ImageNet トップ 1 精度にトレーニングされます。灰色の十字は、教師あり ResNet-50 を示します。

強化学習

強化学習 Google は、他のエージェントから学習し、探索を改善することで、RL アルゴリズムの効率を向上させました。

今年の主な焦点はオフライン RL です。オフライン RL は、固定された以前に収集されたデータセット (以前の実験や人間のデモンストレーションなど) のみに依存し、トレーニング データをその場で収集できないアプリケーションに RL を拡張します。研究者らは、RL に二重の方法を導入し、オフポリシー評価用の改良アルゴリズムを開発し、オープンソースのベンチマーク データセットと Atari の DQN データセットをリリースすることで、より広範なコミュニティと協力してこれらの問題に取り組んでいます。

DQN リプレイ データセットを使用した Atari ゲーム向けオフライン RL

もう一つの研究方向は、徒弟学習を通じて他のエージェントから学習することでサンプル効率を向上させることです。

RL を複雑な現実世界の問題に拡張することは重要な課題であることに注意することが重要です。

私たちのアプローチの概要を説明し、AttentionAgent のデータ処理パイプラインについて説明します。上部: 入力変換 - スライディング ウィンドウは入力画像を小さなパッチに分割し、将来の処理のためにそれらを「平坦化」します。真ん中。パッチ選択 - 修正された自己注意モジュールがパッチ間で投票し、パッチ重要度ベクトルを生成します。下部: アクション生成 - AttentionAgent はパッチ間で投票し、各パッチの重要度ベクトルを生成します。アクション生成 - AttentionAgent は、重要度が最も高いパッチを選択し、対応する機能を抽出し、これらの機能に基づいて決定を下します。

オートML

これが非常に活発で刺激的な研究分野であることは間違いありません。

AutoML-Zero: 継続的に学習するコードでは、進化的アルゴリズムに非常に基本的な操作 (加算、減算、変数割り当て、行列乗算など) で構成される検索空間を与えるという異なるアプローチを採用し、最新の ML アルゴリズムをゼロから進化させることが可能かどうかを確認しました。

しかし、役に立つアルゴリズムは少なすぎます。下の図に示すように、このシステムは、線形モデル、勾配降下法、正規化線形単位、効率的な学習率設定と重みの初期化、勾配正規化など、過去 30 年間の最も重要な ML の発見の多くを再発明しています。

MLアルゴリズムとモデルをより深く理解する

ニューラル ネットワークの幅と深さが増すにつれて、トレーニングが速くなり、一般化も良くなる傾向があります。これはディープラーニングにおける中心的な謎です。なぜなら、古典的な学習理論では、大規模なネットワークは過剰適合するはずだと示唆されているからです。

無限幅の限界では、ニューラル ネットワークは驚くほど単純な形をとり、ニューラル ネットワーク ガウス過程 (NNGP) またはニューラル タンジェント カーネル (NTK) によって記述されます。 Google の研究者たちはこの現象を理論的にも実験的にも研究し、JAX で書かれたオープンソース ソフトウェア ライブラリである Neural Tangents をリリースしました。これにより研究者は無制限の幅のニューラル ネットワークを構築およびトレーニングできます。

左: この図は、単純な入力/出力グラフが無限に広くなるにつれて、ディープ ニューラル ネットワークがどのように進化するかを示しています。右: ニューラル ネットワークの幅が増加すると、ネットワークのさまざまなランダム インスタンスでの出力の分布がガウス分布になることがわかります。

機械知覚

私たちの周囲の世界の認識、つまり視覚、聴覚、マルチモーダル入力の理解、モデル化、およびそれに基づく行動は、私たちの日常生活に大きな利益をもたらす可能性を秘めた研究分野です。

2020 年、ディープラーニングにより 3D コンピューター ビジョンとコンピューター グラフィックスがさらに近づきました。 CvxNet、3D シェイプのディープ レイテンシ関数、ニューラル ボクセル レンダリング、CoReNet などがこの方向の例です。さらに、シーンを Neural Radiance Fields (別名 NeRF、こちらのブログ投稿も参照) として表現する取り組みは、Google Research での学術的なコラボレーションがニューラル ボリューム レンダリングの分野で急速な進歩を促進できることを示す素晴らしい例です。

Google は、カリフォルニア大学バークレー校との共同研究「Learning to Factorize and Relight Cities」で、屋外のシーンを時空間的に変化する照明と永続的なシーンの要素に分解するための学習ベースのフレームワークを提案しました。これにより、ストリートビューのパノラマの照明効果やシーンのジオメトリを変更したり、1 日のタイムラプス ビデオに変換したりすることもできます。

2020年もニューラルネットワークを用いたメディア圧縮の分野を拡大し続け、学習画像圧縮だけでなく、ビデオ圧縮、ボリューム圧縮、ディープラーニングに依存しない画像透かしのディープメソッドでも良好な成果を達成しました。

最初の行: メッセージが埋め込まれていない表紙画像。 2 行目: HiDDeN 複合歪みモデルからエンコードされた画像。 3 行目: モデルからエンコードされた画像。 4 行目: HiDDeN 結合モデルのエンコードされた画像とカバー画像間の正規化された差。 5行目: モデルの正規化された差

オープンソース ソリューションとデータセットを通じて、より広範な研究コミュニティと関わることも重要な側面です。 2020 年、Google は、デバイス上の顔、手、姿勢の予測、リアルタイムのボディ ポーズ トラッキング、リアルタイムの虹彩トラッキングと深度推定、リアルタイムの 3D オブジェクト検出など、MediaPipe のさまざまな新しい認識および推論機能とソリューションをオープンソース化しました。

「最後に、今年を見据えて、私は、幅広いモダリティに対応でき、非常に少ないトレーニング例で新しいタスクを自動的に達成することを学習できる、より汎用的な機械学習モデルを構築できる可能性に特に興奮しています。

この分野の進歩により、より強力な製品が実現し、より優れた翻訳、音声認識、言語理解、オーサリング ツールが世界中の何十億もの人々に提供されるようになります。

このような探求と影響力こそが、私たちの仕事への情熱なのです。 ”

<<:  2021年に注目すべき人工知能と機械学習の5つのトレンド

>>:  ナレッジグラフの紹介と応用

ブログ    
ブログ    

推薦する

VAE から拡散モデルへ: テキストを使用して画像を作成する新しいパラダイム

1 はじめにDALL·E のリリースから 15 か月後、OpenAI は今春、続編の DALL·E ...

AI にはどのような IT インフラストラクチャが必要ですか?

長年にわたり、AI テクノロジーの発展と変化に伴い、さまざまな業界や IT 意思決定者がこの分野に多...

偽造AIがまた進化しました!たった一枚の写真で、スピーチと歌のビデオが自動的に生成されます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIと合成生物学の融合における5つの大きな課題:テクノロジー、データ、アルゴリズム、評価、社会学

過去 20 年間で生物学は大きな変化を遂げ、生物システムを設計することが可能になりました。私たちの細...

...

金融AIが外灘サミットでデビュー: 完全な金融知識を備え、同時に数百万人と会話し、金融アドバイスを提供可能

「こんにちは。投資したいお金があります。期待収益は 6 ~ 10 ポイントです。1 年間投資したいと...

...

「アルゴリズムの構成」は「ブラックボックス」を明らかにする:アルゴリズムは数学に関するものだが、人間に関するものである

アルゴリズムは私たちの生活の中でますます一般的なものになってきています。しかし、アルゴリズムに関する...

Googleがまた新しいことを始める: 視覚言語モデルに空間推論をさせる

視覚言語モデル (VLM) は、画像の説明、視覚的な質問応答 (VQA)、具体化された計画、アクショ...

GPT-4ではMITでコンピュータサイエンスの学位を取得できない

ある研究者が、MITのコンピューターサイエンスの学位の宿題や試験問題を解くことができると主張するチャ...

EU、生成AIツールの規制について暫定合意に達する:これまでで最も包括的な規則

12月9日、ワシントンポスト紙やエンガジェットなどの海外メディアの報道によると、世界各国がAIの急速...

アリババの年次技術概要: 検索における人工知能の応用と実践

[51CTO.com からのオリジナル記事] ディープラーニングに代表される人工知能は、画像、音声、...

分析: 人工知能について私が心配しているのはなぜでしょうか?

1980 年代や 1990 年代に生きていた人なら、今では消え去った「コンピュータ恐怖症」を覚えて...

GitHub トップ プロジェクト: 30 万語の図解アルゴリズム問題辞書、超実用的なリソース、6,000 個のスター

[[336071]]貴重なリソースをまとめましたので、ぜひご覧ください。アルゴリズムはコンピュータサ...