あと数日で2019年も終わりです。今年は AI が夢から現実へと移り変わる年です。NLP から自動運転、顔認識からデータシミュレーションまで、どのような技術革新がもたらされ、どのような新たな困難に直面したのでしょうか。 Andrew Ng 氏の Deeplearning.ai は、今年の AI 分野における 6 つの最も重要なイベントとトレンドをまとめました。 2019年も98%が過ぎました。あと数日で20代以降の世代が誕生します! 今年は節目となる出来事がたくさんある年になるはずです。これは、ハリウッドSF映画の「ウエストワールド」や「ターミネーター」などの非現実的なファンタジーシーンから一般大衆を引き離し、AIがファンタジーではなく実際に世界で実在する力であることを人々に認識させ、AIが社会、経済、政治、国際的な勢力均衡に与える影響について真剣に議論し始めることを可能にします。 本稿では、言語モデルの目覚ましい成果、顔認識で遭遇した障害、自動運転の実現の遅れ、DeepFakeの主流への参入など、AI分野の現在の発展状況を振り返ります。どのような技術的進歩が達成され、どのような新たな困難に直面したのでしょうか。 Andrew Ng の Deeplearning.ai をフォローして、今年の AI の最も重要な分野における 6 つの画期的なイベントとトレンドを見てみましょう。 自動運転:寒い冬に希望をほんの数年前、いくつかの自動車会社は、2017年には自動運転車を路上に走らせると約束していました。しかし、今年1月、ウォール・ストリート・ジャーナルは、ウェイモのCEO、ジョン・クラフチック氏が、自動運転車はあらゆる道路状況で走行することはできないかもしれないと語ったと報じた。彼の発言は、2019年に自動車業界で起こった大規模なレイオフの方向性を決定づけるものとなった。 自動運転は2019年にボトルネックに遭遇し、自動運転分野で活動するいくつかの企業の商業的拡大は大幅に鈍化した。 GMクルーズとテスラは自動運転タクシーの発売期限を2020年に延期した。 ウェイモとリフトについては、米国フェニックスの規制当局が2018年に両社に自動運転タクシーの運行を許可したものの、これまでのところこのサービスは限られた地域でのみ利用可能であり、このサービスを選択する意思のある人はごくわずかだ。ウェイモは商業事業の進捗が芳しくないことから、今年11月にテキサス州オースティンにある自動運転車の研究開発施設を閉鎖すると発表した。 技術的な観点から見ると、市街地道路でのリアルタイムの運転環境は路上テストよりも複雑であり、発生する可能性のある極めて危険な状況の数も大幅に増加します。しかし、多くの極端な状況は実際に発生する可能性が低いため、エンジニアがこれらの状況を再現するのに十分なシミュレーション データを取得できない可能性があるという問題が発生します。現時点では、自動運転バスやトラックなど、ルートが比較的固定されており予測可能性も高い一部の車両は、自家用車やタクシーよりも自動運転技術の導入による実質的なメリットを享受できる可能性が高いかもしれない。 コストの観点から見ると、センサー(特にLiDAR)のコストは依然として高く、供給が逼迫しています。コストを抑えるために、自動車会社はこれらのデバイスを自社で製造しようとする可能性が高くなります。同時に、車両に搭載されるセンサーの数は必然的に減少します。センサー数の減少は、トレーニングと認知データの量の減少を意味します。この減少を補うほどセンサーの性能が向上しない場合、自動運転技術の最優先事項である安全性が脅かされることになります。 市場環境から判断すると、 2019年は世界の自動車企業にとって大規模な人員削減の年であった。世界的な景気低迷や新車需要の減少を背景に、日本、米国、欧州の大手自動車メーカーが相次いで大規模な人員削減計画を発表している。不完全な統計によれば、世界の自動車会社3社のうち1社が従業員を解雇している。自動運転は金のかかる産業であり、新技術の研究開発は従来の自動車会社の技術的・財政的支援から切り離すことはできない。現在の環境では、昔の金持ち父さんでさえ手一杯のようだ。 もちろん、良いニュースもあります。中国は別のアプローチを試みています。既存の都市環境で自律走行車を走行させるように訓練する代わりに、既存の都市がデジタル変革され、自律走行技術の開発に対応し、促進されています。これは「スマートシティ」構築と呼ばれ、道路脇のセンサー機器の改善が含まれ、ナビゲーションの手がかり(車線変更や速度制限標識など)に基づいて、より豊富な道路情報を送信します。 総じて2019年は自動運転業界における事業領域の細分化が進んだ年だった。技術的なボトルネックや資金の逼迫により、各社は大規模かつ包括的な事業ラインを維持することが不可能となり、得意とする専門領域に注力するようになった。 フォードやメルセデスなどの伝統的な自動車メーカーは運転支援機能に注力しているが、グーグルの支援を受けるウェイモは完全自動運転車の開発を続けている。一部の小規模な企業は、限定されたシナリオで完全自動運転の導入に取り組んでおり、これらの企業の目標は時間とともに拡大し続けるだろう。 ディープフェイク:テクノロジーが生み出したモンスターをどうやって征服するのか? 2018年末以降、BigGANやStyleGANなど、復元度の高い画像を生成できるモデルが数多く誕生している。前者はImageNetにあるクラスの画像を生成でき、後者は姿勢や髪型、服装などの要素のリアルな変化を生成できる。 2019年、ディープラーニング技術によって生成された偽の動画「ディープフェイク」が広まり始めた。これらの動画は、存在しない有名人や政治家の演説を突然作り出すことができる。これらのリアルな動画は人々に「テクノロジーは何でもできる」と叫ばせる。同時に、テクノロジーの乱用や制御不能性について心配し、恐怖さえ抱く人が増えている。 ディープフェイクの出現により、「偽物から本物へ」の合成技術において画像から動画への飛躍が可能になった。 ディープフェイク動画では、英国のサッカースター、デビッド・ベッカムが9つの言語でマラリア防止のメッセージを伝えている様子が見られる。中国のテクノロジー企業は、同じ技術をベースにしたZAOというアプリをリリースした。このアプリは、動画内のユーザーの顔を人気映画のワンシーンの俳優に置き換えることができ、ユーザーはまるで自分が映画に出演しているかのような気分になれる。 しかし、パロディーエンターテインメントや公共福祉と比較すると、ディープフェイクはテクノロジーの「暗い牙」をより多く見せている。ディープフェイクスピーチはすでにマレーシアとガボンの政治スキャンダルに影響を及ぼしている。 ディープフェイク検出ソフトウェアを開発する企業DeeptraceLabsの報告によると、現在オンライン上にあるディープフェイク動画の96%は、動画に出てくる人物の顔が女性有名人の顔に置き換えられる、不本意な「頭部交換」ポルノだという。これは偽装の域を超え、違法行為の域に達しています。 魔人が瓶から出てしまいました。私たちはどう対応すべきでしょうか?テクノロジー企業や政府議員らはすでに取り組みを始めている。 Facebookはディープフェイク動画の自動検出技術を開発するための1000万ドルのコンテストを発表した。中国政府は虚偽の動画の拡散を禁止する規制を発令した。カリフォルニア州も同様の法律を可決しており、下院はディープフェイク動画に対抗するための国家立法を推進することを検討している。 これは長期にわたるハイテクな猫とネズミのゲームになる可能性がある。南カリフォルニア大学のコンピューターサイエンス教授、リー・ハオ氏は、このコンテストで優勝する可能性は楽観的ではないかもしれないと語った。現在のディープフェイク動画はまだ明らかな特徴を持っているが、1年後にはこれらの偽動画は本物の動画と区別がつかなくなるかもしれない。 顔認識の導入は行き詰まっており、政府は介入して規制を立法化している。NLP 分野の急速な発展と比較すると、顔認識は前進する過程で厳しい抵抗に遭遇してきました。国際的な反監視感情が顔認識システムのさらなる普及を促した。 国民自身のプライバシーや肖像の悪用に対する懸念から、米国や欧州の人権活動家や監視団体は、顔認識によって国民の個人的権利が害される可能性を深く懸念しており、この技術の使用を制限する法律の制定を促している。 彼らの取り組みは、顔認識技術の公的および私的利用を禁止する同国の動きを後押しし、芽生えつつある顔認識技術の大規模商業利用に大きな打撃を与えている。 現在、連邦政府がこの件について審議している中、全米のいくつかの都市では顔認識に反対する法律が可決されている。欧州連合も独自の規制を策定すべく取り組んでいる。今年の重要な出来事をいくつか振り返ってみましょう。
2016年、国家電気通信情報局は顔認識に関するガイドラインを発行し、企業に透明性の確保、適切なデータ管理の実践、第三者との顔データの共有に対する国民の一定の管理権限の付与を義務付けた。この技術の主要ベンダーはNTIAの会員だが、ガイドラインを遵守しているかどうかは不明だ。 顔認識の使用を制限する法律制定の本来の目的は国民のプライバシーを保護することですが、異なる立場や独自のアプローチにより、むしろマイナスの影響が生じる可能性があります。 今年6月、アマゾンウェブサービスのCEO、アンディ・ジャシー氏は「議会にできるだけ早く法律を統一するよう懇願します。さもなければ、米国50州で50もの異なる法律や規制に直面することになります!」と不満を述べた。このような混沌とした状況は、地元の法執行機関を混乱させることさえあるかもしれない。 NLPが飛躍的に進歩し、言語モデルが言語に精通するようになるWord2Vec と GloVe 埋め込みを利用した初期の言語モデルは、わかりにくいチャットボット、中学生レベルの読解力しかない文法ツール、ほとんど読めない翻訳を生み出しました。しかし、最新世代の言語モデルは非常に優れているため、危険だと考える人もいます。 2019 年に自然言語処理の分野で何が起こったのでしょうか?新しい言語モデルは、読者がニューヨークタイムズと同じくらい信頼できると評価したニュース記事を生成しました。同じ言語モデルは、ニューヨーカーの記事にも貢献しました。幸いなことに、これらのモデルは人々が恐れていたほど多くの誤った情報を広めてはいない。 2019年、研究者たちは機械に自然言語を理解させることにおいて大きな進歩を遂げました。膨大なラベルなしデータセットで事前トレーニングを行うことで、新しいモデルは自然言語に習熟できるようになります。その後、専門のコーパスで微調整することで、特定のタスクやトピックを習得します。 ULMFiT (ジェレミー・ハワードとセバスチャン・ルーダーによる)やELMo (アレンAI研究所とワシントン大学による)などの初期のモデルは事前トレーニングの可能性を実証し、GoogleのBERTはこのアプローチの最初の画期的な成功でした。 2018年後半にリリースされたBERTは、GLUE読解力ベンチマークで非常に高いスコアを獲得したため、テストの主催者は初めてモデルのパフォーマンスを人間のベースラインスコアと比較しました。今年6月、マイクロソフトのMT-DNNモデルが初めて人間に勝利した。 2月中旬、OpenAIは事前トレーニング済みの一般言語モデルGPT-2をリリースしたが、説得力のあるエッセイを生成できる能力があるため、開発者自身もリリースするのは危険すぎると考えていた。 40GB の Reddit コメントでトレーニングされた GPT-2 は、フェイクニュースの大流行を引き起こすことはなかったが、小説、エッジの効いた歌詞、ゲーム・オブ・スローンズのファンフィクションに貢献した。 OpenAIは11月にようやくモデルの完全版をリリースした。 この期間中、百度、カーネギーメロン大学、Google Brain、Facebookなどの機関による一連のモデルが次々とNLPベンチマークを上回りました。それらの多くはトランスフォーマー アーキテクチャに基づいており、BERT スタイルの双方向エンコーディングを利用しています。 ニュースの背景: BERT が誕生する直前の 2018 年 7 月、DeepMind の研究者である Sebastian Ruder 氏は、事前トレーニングが自然言語処理に与える影響を予測しました。さらに、彼は、NLP のブレークスルーが人工知能全体に革命をもたらすだろうと予測しています。彼の議論は、2012 年頃に事前トレーニングによってコンピューター ビジョン モデルに与えられたインスピレーションに基づいています。業界の多くの人々は、ディープラーニングの爆発的な成長がこの瞬間にまで遡ると考えています。 現状: 1 年間の革新にもかかわらず、言語モデルにはまだまだ成長の余地があります。1.5 兆のパラメータを持つ GPT-2 でさえ、理解できないテキストを吐き出すことがよくあります。来たる米国の選挙シーズンでは、最新のモデルが大量の偽情報を流して民主主義を混乱させる力を持っているかどうかが試されることになるだろう。 スタークラフト II からルービックキューブを解くロボットの手まで: 機械学習はますますシミュレートされたデータに依存する機械学習の将来は、実際のデータの収集よりも、シミュレートされた環境への依存度が高くなる可能性があります。 十分な高品質データがあれば、ディープラーニングは魔法のように機能します。しかし、サンプルがほとんどない場合、研究者はシミュレーションデータを使用してギャップを埋めます。 2019年、シミュレーション環境でトレーニングされたモデルは、この分野におけるこれまでの研究よりも複雑で多様な成果を達成しました。強化学習では、DeepMind の AlphaStar が複雑な戦略ゲーム StarCraft II でグランドマスターの地位を獲得し、人間のプレイヤーの 99.8% に勝利しました。 OpenAI Five は、5 つのニューラル ネットワークのチームをトレーニングして、Dota 2 の世界チャンピオンに勝利しました。しかし、これらのモデルはシミュレートされた世界で学習し、学習するのはシミュレートされた世界で行動することです。他の研究者は、シミュレーションで AI が学習したスキルを現実世界に移行させています。 OpenAI の Dactyl ロボットアームは、ルービックキューブを操作するために必要な器用さを養うために、仮想環境で 13,000 年に相当するシミュレーション期間を費やしました。次に、それらのスキルを実際のルービックキューブに適用します。ルービックキューブを解くのに15回転未満しかかからない場合、成功率は60%に達します。キューブを解くのにさらに多くの試行が必要になったとき、成功率は 20 パーセントに低下しました。 カリフォルニア工科大学の研究者らは、カリフォルニアと日本を横断する地震波をシミュレートし、そのシミュレーションをトレーニングデータとして使用することで、重なり合う地震と同時発生する地震を区別するニューラルネットワークをトレーニングした。 アマゾンのオーロラ自動運転車部門は、都市環境を走行するためのモデルをトレーニングするために、同時に数百のシミュレーションを実行します。同社は同様の方法で、Alexaの会話能力、配達ドローン、ロボットをトレーニングしている。 Facebook の AI Habitat、Google の強化学習行動スイート、OpenAI の Gym などのシミュレートされた環境は、繊維生産ラインの最適化、3D 画像の空白部分の埋め合わせ、ノイズの多い環境でのオブジェクトの検出などのタスクを AI が習得するためのリソースを提供できます。近い将来、このモデルは分子シミュレーションを調査し、望ましい結果をもたらす薬剤の設計方法を理解することができるようになるかもしれません。 衝突勃発:象徴主義とコネクショニズムの古い論争が再燃ゲイリー・マーカス氏が主導したツイッター上での1年にわたる議論は、人工知能の方向性をめぐる数十年にわたる議論に新たな命を吹き込んだ。 マーカス氏はニューヨーク大学教授、作家、起業家、そしてロジックベースの AI の支持者であり、ディープラーニングの信頼性を失墜させ、他の AI アプローチを推進するために Twitter で執拗な議論を繰り広げてきました。 マーカスは、ルールベースのアルゴリズムが認知に不可欠であると主張するいわゆる象徴主義者と、十分な数のニューロンを適切な損失関数で接続することが機械知能を得るための最良の方法であると主張するコネクショニストの間の古い論争を再燃させた。 マーカスと対立してきた AI 実践者たちは、コネクショニズムの限界が資金の枯渇や AI の冬を招くのを防ぐために、象徴的なアプローチを再び取り入れ始めている。この討論はAIの将来についての厳しい評価を促し、12月23日にはマーカス氏とディープラーニングの先駆者でモントリオール大学のヨシュア・ベンジオ教授との間でライブ討論が行われた。議論は非常に丁寧で、双方とも二者間の協力の必要性を認めた。 2018年12月、マーカス氏はディープラーニング支持者の「帝国主義的」姿勢に異議を唱え、独自の攻撃を開始した。その後、彼はフェイスブックのディープラーニングの先駆者であるヤン・ルカン氏に、純粋なディープラーニングに信頼を置くべきか、それとも古き良きAIの余地があるかという選択を迫った。 OpenAIは10月にハイブリッドモデルを提案して話題になった。ロボットハンドは、深層強化学習と古典的な Kociemba アルゴリズムを組み合わせて、ルービックキューブパズルを解きます。マーカス氏は、解を計算したのはディープラーニングではなくコシエンバ氏のアルゴリズムであると指摘したが、ロボットはさらなるトレーニングによってそのスキルを習得できると主張する者もいる。 昨年12月、マイクロソフトはこのギャップを埋めるために「ニューロシンボリックAI」を提案した。これは、ニューラル表現とシンボリック表現の間のギャップを埋めることを目的としたモデル アーキテクチャです。 2019 年も終わりに近づく中、NeurIPS カンファレンスでは AI コミュニティの自己省察が強調されました。 「当社の現在のトレーニングモデルはすべて、AIが特定のタスクで勝利したり、高得点を獲得したりするように設計されているが、それが知能のすべてではない」と、グーグルの研究員、ブレイズ・アグエラ・イ・アルカス氏は基調講演で述べた。 象徴主義者とコネクショニストの間の敵意は半世紀以上も遡ります。 1969年、マービン・ミンスキー氏とシーモア・パパート氏は著書『パーセプトロン』の中で、パーセプトロンに代表される単層ニューラルネットワークシステムの機能と限界を綿密に分析し、パーセプトロンではXORなどの単純な線形不可分な問題を解決できないことを証明し、最初のAIの冬の到来を促しました。 2 度目の AI の冬は、ほぼ 20 年後に到来しました。これは、シンボリック AI が LISP コンピューターに依存していたためであり、LISP コンピューターは PC の出現によって時代遅れになりました。 ニューラル ネットワークは 1990 年代に人気を博し、コンピューティング能力とデータの爆発的な増加により、過去 10 年間で主流となりました。 コネクショニストとシンボリストが直接対決し、あるいは一方の派閥が他方を全滅させるまで、私たちは刺激的な新時代を楽しみにしています。 |
<<: 超便利!追加のコードを書かずに依存性注入の5つの原則をマスターする
世界初のソフトウェア特許を保有していた人物が亡くなった。彼の名前はマーティン・アルビン・ゲッツで、「...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
最近、北京にショッピングモールがオープンした。オープン当日、客を出迎えたのは「人」ではなく「ロボット...
老朽化するインフラ、コスト圧力、変動する利益率、規制の監視などにより、より効率的で強力なメンテナンス...
金庸の武侠小説には両手で戦うという武術が登場します。これは周伯同が桃花島の洞窟で10年以上の厳しい修...
動物園に行くときは指紋で「チェックイン」する必要があり、家に帰ってコミュニティに入るときも顔をスキャ...
[[432936]] [51CTO.com クイック翻訳]昨今、ディープラーニング、特に自然言語処理...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[428910]]人工知能は、スマートビルディングパズルの最も重要なピースの 1 つです。これがな...
2020年12月にリリースされたCPM-1は、中国初の大型中国語モデルです。2022年9月にリリー...
[[359728]] AI の向上とマシン ビジョン制御の向上を組み合わせることで、スマート製造業界...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
元のタイトル: 機械学習を始める方法!動画紹介: https://v.qq.com/iframe/p...
GMIリサーチの最新分析によると、人工知能市場は2019年から2026年の予測期間中に年平均成長率(...
【元記事は51CTO.comより】 「(段)幕」という言葉はシューティングゲームから生まれたもので、...